海量公司首席科學家、博士周富秋在兩岸數(shù)字內(nèi)容及産業(yè)孵化論壇上作主題演講(視頻截圖)
很高興今天下午能夠聽到尤其在遊戲行業(yè)裏關於雲(yún)計算的實質(zhì)性應用。因為上個月我參加了全國第十屆網(wǎng)際網(wǎng)路大會,我聽的最多的是大家談概念,我可以直白的講,大陸有一個毛病就是喜歡炒概念,沒有真正實質(zhì)性的去談到一些應用。我的結論是參加第十屆網(wǎng)際網(wǎng)路大會,聽眾非常多,但是他們談的更多是雲(yún)的概念而不是雲(yún)的計算。就想起了什麼都是浮雲(yún)。今天很高興能夠聽到很多新的想法。
如果真正要談到雲(yún)計算,實際上最初提出雲(yún)計算概念是24年前提出來,當時實際上是雲(yún)計算的雛形,由於種種原因沒有付諸實施。隨著時代的變化,IT行業(yè)的變化,如果追溯到遠一點60年代IBM推出大型電腦,現(xiàn)在我們看得最多的是每個人手上拿的移動設備,平板電腦等等。另外一個是網(wǎng)際網(wǎng)路,網(wǎng)際網(wǎng)路的興起和發(fā)展尤其是在大陸,在臺灣提出網(wǎng)際網(wǎng)路比較早一些,真正網(wǎng)際網(wǎng)路在國內(nèi)的興起是1996年,我記得1995年從美國回來的時候,很多人問我什麼是網(wǎng)際網(wǎng)路,甚至有人問我什麼是電子郵件,短短的16年期間網(wǎng)際網(wǎng)路在大陸簡直是蓬勃發(fā)展,現(xiàn)在的興起簡直是勢不可當,滲入生活當中的各個層面。但是更大的問題是什麼呢?網(wǎng)際網(wǎng)路的興起,我認為最大的弊病在於數(shù)據(jù)急劇增加,我對現(xiàn)在網(wǎng)際網(wǎng)路數(shù)據(jù)的增加最大的概括,網(wǎng)際網(wǎng)路給我們的生活帶來陽光,但是只有幾屢陽光,還不是充滿陽光,就像一首歌講的還有很多陰霾,就是多、雜、亂、難。我們實際上很多人在遭受一種病癥就是資訊污染綜合癥。我們十年以前、十五年以前、二十年以前是遭受資訊匱乏的病癥,現(xiàn)在是資訊太多。怎麼辦?我談到兩個原因,計算平臺的轉移和網(wǎng)際網(wǎng)路的興起,在呼救雲(yún)計算。
我認為談雲(yún)計算更多在計算上下功夫,如果現(xiàn)在是這樣的現(xiàn)狀,網(wǎng)際網(wǎng)路大量的資訊需要超級的計算模式去解析它,去分析它,找出它真正能夠給人們的生活和工作帶來價值的東西提供給我們的客戶。這就是我們海量資訊技術有限公司致力於追求的,我們有智慧計算的手段去處理海量的網(wǎng)際網(wǎng)路的資訊,把這個平臺建立在雲(yún)計算的框架裏?,F(xiàn)在最大的問題是看到一大堆問題,真正要分享很難,谷歌兩位年輕人很厲害,他們説建立谷歌的目的是梳理世界上的資訊,使之在全球範圍內(nèi)可得。是要梳理它,不是説把這個東西給你,現(xiàn)在我們在谷歌和百度拿到一大堆原始數(shù)據(jù)的羅列,看到第三頁,我想我看到第二頁就不想看了。怎麼讓電腦去處理,真正解決我們的社會問題。這就是我認為最關鍵的智慧計算帶來的社會價值。
以前我們關心更多的是技術上的東西,我們應該轉移態(tài)度多關注社會上的問題?;哆@一點,我認為將來的網(wǎng)際網(wǎng)路是什麼樣子?很多人都講是移動化的,無國界的,互動性的,網(wǎng)際網(wǎng)路將來也是不可分割的一部分,我認為更關鍵的是怎麼處理這些數(shù)據(jù),這麼多資訊怎麼去解析它,我提出一個觀點就是一定要智慧化、結構化的網(wǎng)際網(wǎng)路,這才是將來的方向,這個不謀而合和矽谷的大師凱文講的一樣,不會太好,但是不一樣。不一樣在什麼地方?用三個字來解釋,首先是聰明、智慧,網(wǎng)際網(wǎng)路能看到東西,能理解數(shù)據(jù),能歸納數(shù)據(jù),能篩選數(shù)據(jù),給出的是我們所需要最終的知識和情報,而不是一大堆原始的東西。二是更加個性化,因為我們市場的細分。三是無處不在,一天24小時。這是未來網(wǎng)際網(wǎng)路的憧憬,我認為這完全符合我們所打造的。
我們已經(jīng)實現(xiàn)了電腦的互聯(lián),在80年代、90年代初的時候是用的大型機,然後是用了PC,基本上可以把網(wǎng)際網(wǎng)路上相互之間的電腦連接起來,現(xiàn)在我們做到網(wǎng)頁互聯(lián),谷歌和百度就是,把同樣的資訊分類出來,我可以在網(wǎng)站裏查到我的資訊,可以從我的電腦聯(lián)繫到另外一臺電腦。但是有一點沒有做到,就是讓網(wǎng)際網(wǎng)路更加智慧,就是把網(wǎng)頁裏談到的東西聯(lián)繫起來,這就非常難了。就是讓它智慧化,網(wǎng)頁裏提到的事物之間到底有什麼關係,這一點是更重要的。將來我們的網(wǎng)際網(wǎng)路是語義網(wǎng)路,是數(shù)據(jù)的網(wǎng)路,將來呈現(xiàn)在我們面前是一個網(wǎng)狀的東西,而不是豎狀的。我們期望網(wǎng)際網(wǎng)路將來的數(shù)據(jù)是結構化,是相互關聯(lián)的。一個頁面上的概念和另外一個頁面上的概念是相關的。提到的人、事、物都有獨一無二的身份,有獨一的屬性。我看到網(wǎng)頁上有姚明,它談的是一個人,跟NBA有關係,跟上海球隊有關係等等,這就是網(wǎng)際網(wǎng)路賦予人理解文本的這種解釋。比如讀到北京,互聯(lián)就就知道它是一個地名,有經(jīng)度、有緯度,有人口等等。不是做不到,而是必須要做到。
所以我們海量公司一直在追求這個,我們一定要把網(wǎng)際網(wǎng)路上的數(shù)量變成品質(zhì),要從資訊服務轉化為知識獲取。比如一個老闆有一個秘書,老闆提出需求,你給我找一個東西,找一個我做抉擇的依據(jù),秘書第二天拿一大堆的資料給他,這是一種解決方案。另外一種解決方案可能是通過一個團隊的工作,把一大堆的資料濃縮成一個表格,我想老闆肯定是喜歡第二種做法。我們希望這個壓縮的工作讓機器去做,不是做不到,是能夠做到。以內(nèi)容為紐帶,將網(wǎng)路搭成一個語義邏輯整體。最後讓機器讀懂網(wǎng)際網(wǎng)路。機器能看懂網(wǎng)際網(wǎng)路上的內(nèi)容。
要這樣做一定是依賴於雲(yún)計算大的框架,四年以前還沒有興起雲(yún)概念的時候,剛才大家談到IAAS、PAAS、SAAS,我們已經(jīng)基於雲(yún)計算大框架,根據(jù)客戶提出的對數(shù)據(jù)加工的需求,我們提出了雲(yún)的采編服務。城邦的公司肯定他們的編輯要處理大量的工作,而且很多大量的工作是用手工做的,我們能不能讓機器做一些案頭工作,把編輯做的找轉編發(fā)這些進行智慧化,這就是雲(yún)采編服務。還有雲(yún)凈化服務,國務院一再強調(diào)不能有不良資訊、色情的資訊、違法的資訊在網(wǎng)上散發(fā),很多網(wǎng)站很緊張,錄用一大批小姑娘、小夥子成天在這兒看,看到不好的就刪掉。我們提出一個雲(yún)計劃的凈化服務,我們可以用機器來刪除,我們刪掉的目標已經(jīng)做到95%。我們可以看看客戶群裏已經(jīng)有這樣的反饋,它可以做到95%到98%的機器凈化。而只提出2%到5%讓客戶進行審核。還有雲(yún)發(fā)佈也是基於雲(yún)計算的發(fā)佈,可以提高網(wǎng)站的流量等等。我們還推出我一直比較希望推出的通過這個平臺的建立,能夠推出一個雲(yún)的標引,數(shù)據(jù)來了以後怎麼給數(shù)據(jù)打上標簽,讓這些數(shù)據(jù)更加智慧化。雲(yún)的標簽,對出版商、對網(wǎng)站,因為我以前在美國工作了15年,處理了大量的美國200年的數(shù)據(jù)庫,因為是非結構化的文本,怎麼把它結構化,就是必須打上標簽,就便於後端和前端用戶進行檢索和分析。
這WOS平臺應用架構圖。我們採用了很多業(yè)界的標準東西,最終的目的是什麼?是希望客戶提供所需要的資訊。如果客戶來了以後,他提出信源,有很多不同的資訊來源,這些是非結構化的,這些是不同文本和格式,通過我的平臺就把它轉換成結構化的數(shù)據(jù),這個結構化的數(shù)據(jù)就是大家談的RDF,大量的文本來了以後,要變成一個表格一樣的東西,變成幾行字來解決。知道裏面提到的人事物,因為文本往往是這樣的,自然語言往往是這樣的,在談事情的時候必須要提到人,必須要提到專有名詞,必須要提到時間、地點等等。我們通過智慧化處理以後,人與物、人與人都建立語義管理,這樣我們對人的行為進行分析,我們可以進行連結和推送服務。
舉一個例子,中文要做到真正讓中文能夠讓機器理解中文,首先要把中文分詞分清楚,你看不出中間這個詞是怎麼分的,可以説乒乓球拍賣完了,也可以説是乒乓球,拍賣完了。這是不一樣的。給大家看一下怎麼用智慧的方法去理解一篇文章,首先分詞很重要。所謂智慧分詞、命名實體、語義網(wǎng)。比如寧靜這個詞,比如寧靜的夏天、寧靜的夜晚,往往從這個理解,我們的機器也按照這個方向理解。往往在娛樂圈裏,在中國大陸寧靜是一個很有名的演員,我能不能在一篇文章裏把寧靜分出來,它不是一般的詞,而是指一個人名,然後給她建立關係,她跟紅河谷有關係,她演過的所有電視劇和電影有關係,而且和其他的明星有關係等等。智慧分詞從這兒做起。
再舉一個例子,有一個客戶找到我們,説我是幫助企業(yè)尋找廣告代言人,一般廣告代言人都找明星,我設廣告代言人所設定的明星在一個時間段裏,我們通過智慧分析,它給我們兩個人,一個是王菲,一個是李亞鵬,我在想大陸都知道這是一對很有名的夫婦。他們的曝光率在這四個點上,第一個點把關鍵詞和特徵詞看一下,這個點他們談什麼,有什麼具體的題目,這個點和這個點上是什麼,在這個時間段裏他們倆在網(wǎng)路上的曝光率就是這樣的狀態(tài)。然後給了我們上千個影視明星,他就非常高興,説可以幫助企業(yè)很快的找到這個新聞的熱點,怎麼發(fā)現(xiàn)新聞的熱點,根據(jù)名人,然後進行跟蹤,最終幫助他們篩選出要做廣告代言人的選擇。
還有在垂直行業(yè),有一個醫(yī)療網(wǎng)站叫“好大夫線上”,他們每天要收到成千上萬份不同的客戶在網(wǎng)上提出的需求,他描述我到底身體有哪些不適,有哪些病狀和問題,可是描述得往往不專業(yè),不會用專業(yè)的醫(yī)療詞彙等等。這樣的話,好大夫線上抓住這個時機,因為有很多網(wǎng)民年齡大了就希望自己能夠在網(wǎng)上得到醫(yī)療的諮詢,就招了一大批有醫(yī)療背景的人坐在那裏分診,這個網(wǎng)站可以分400條不同的病例,網(wǎng)民提出的需求到底是哪種病,分給哪個醫(yī)院,哪個大夫都是通過人工的。他們找到我們,我們做了關鍵的幾步,把大量的網(wǎng)上談到醫(yī)療方面的資訊進行抽取,找了專業(yè)詞彙,找了一些模糊的地方,然後進行對比,基本上把網(wǎng)站所需要用人去處理的分診系統(tǒng)基本上95%替代。還能夠根據(jù)他的病癥提出不同的解決方案,比如哪個醫(yī)院,哪個大夫更有效等等。
我們在移動行業(yè)當中,我拿著手機,將來拿著手機什麼都沒有,只要我提出需求,我要得到什麼就得到什麼。這也是凱文凱利夢寐以求的。比如拿著手機看到樓房,通過衛(wèi)星定位知道我在什麼地方,這是基本上能夠實現(xiàn)的。更關鍵的是這片樓裏在幹什麼,有什麼活動,有什麼樣的商店,有什麼樣的影院,有什麼樣的餐飲等等。這從雲(yún)當中獲得,這些都是經(jīng)過結構化處理的,經(jīng)過海量的結構化處理。把結構化處理後的資訊能不能夠疊加在手機上,讓它知道最終能夠知道到底需要什麼??梢钥闯鲞@一片的樓的價格比另一片樓的價格更低或者更高等等。這都是應用雲(yún)計算來做。最關心的是怎麼從網(wǎng)路當中獲取資訊。
“雲(yún)”中的智慧計算,在網(wǎng)際網(wǎng)路當中怎麼做智慧計算?現(xiàn)在的網(wǎng)際網(wǎng)路不再是PGC佔主導地位,就是專業(yè)人士知道的東西,現(xiàn)在已不佔主流,關鍵是UGC,這個非常龐大,而且非常亂,我們一定要對這些數(shù)據(jù)進行結構化、智慧化的處理以後,它才能夠發(fā)揮作用,才能夠從雲(yún)中得到圖像、視頻、購物等等。這是我們認為雲(yún)中的智慧關鍵,也就是網(wǎng)上大量非結構化的資訊,有條理的統(tǒng)一的處理,這就是智慧計算。
我們希望通過“雲(yún)”中的智慧計算,我們迎來的網(wǎng)際網(wǎng)路首先是有效的,現(xiàn)在的網(wǎng)際網(wǎng)路你以為他給你帶來很多很好的好處,確實是可以上網(wǎng),但是真正關鍵的東西查了嗎?百度、谷歌做了權威性的調(diào)查,實際上百度、谷歌的搜索引擎只能滿足人們對資訊需求的20%,有80%並沒有滿足。但是怎麼讓那80%呈現(xiàn)在用戶面前,首先通過智慧計算是有效的。二是安全的。三是可操作的。四是可靠的。五是一致的。六是可擴展的。中間這個球就是網(wǎng)際網(wǎng)路,也就是凱文講的。未來的網(wǎng)際網(wǎng)路通讓它擁有語義網(wǎng)路的服務,最終無時不在,無所不包,而且是24小時不間斷運作。最後實現(xiàn)大家夢寐以求的夢想。謝謝大家。