“搜索是一個(gè)‘九一’問(wèn)題,今天,我們已經(jīng)解決了90%的問(wèn)題,但剩下的10%卻要花90%的努力。”在2008年9月Google成立10周年之際,Google副總裁梅耶爾在博客中寫(xiě)道。當(dāng)時(shí),Google在全球搜索市場(chǎng)的占有率已經(jīng)超過(guò)80%。
然而,就在這個(gè)Google苦心經(jīng)營(yíng)10年且已構(gòu)成事實(shí)壟斷的搜索市場(chǎng),居然還會(huì)有人看中這個(gè)事倍功半的差事,接二連三地涌進(jìn)來(lái):2009年5月18日,WolframResearch公司正式發(fā)布Wolfram|Alpha;5月28日,微軟正式發(fā)布Bing;6月初,Yebol公司在硅谷發(fā)布Yebol。盡管三家冠以的名稱不同——“可計(jì)算的知識(shí)引擎”、“決策引擎”、“基于知識(shí)的搜索”,但揪住現(xiàn)有搜索引擎的弱點(diǎn)是這三家公司的共同點(diǎn),盡管他們各有各的招數(shù)。
8月6日,《中國(guó)計(jì)算機(jī)報(bào)》記者電話越洋采訪了Yebol公司創(chuàng)始人、CEO尹紅風(fēng)博士。
Yebol公司創(chuàng)始人、CEO 尹紅風(fēng)
心中總有搜索夢(mèng)
1997年,從加拿大Concordia大學(xué)拿到計(jì)算機(jī)科學(xué)博士學(xué)位的尹紅風(fēng)來(lái)到美國(guó),在位于加州的硅谷一家半導(dǎo)體公司一直工作到2001年,期間,他作為高級(jí)工程師,主持缺陷自動(dòng)分類系統(tǒng)的研發(fā)。在盛行“車庫(kù)創(chuàng)新文化”的硅谷,他利用業(yè)余時(shí)間把萌芽于在國(guó)內(nèi)讀研究生時(shí)的搜索想法,做成一個(gè)演示系統(tǒng),向自己的朋友展示。
2002年,尹紅風(fēng)創(chuàng)辦了BroadMining公司,意思是廣博挖掘。BroadMining通過(guò)數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和人工智能等方法,自動(dòng)從復(fù)雜、海量信息中發(fā)現(xiàn)和提取知識(shí),建立知識(shí)庫(kù),進(jìn)而在線提供基于知識(shí)的搜索引擎服務(wù)。
過(guò)了一段時(shí)間,尹紅風(fēng)發(fā)現(xiàn)一個(gè)奇怪的現(xiàn)象:那些頻頻登錄者的IP地址大都指向業(yè)內(nèi)幾家知名的公司。由于尹紅風(fēng)專注的是搜索,加之勢(shì)單力薄,無(wú)暇顧及網(wǎng)站其他方面的建設(shè)特別是安全方面的問(wèn)題。為了保護(hù)自己的技術(shù),他很快就關(guān)閉了BroadMining的搜索服務(wù),接著,他為自己的搜索技術(shù)申請(qǐng)專利。2005年,美國(guó)專利和商標(biāo)局批準(zhǔn)了他的專利。
關(guān)閉了BroadMining,尹紅風(fēng)加盟Yahoo,在數(shù)據(jù)挖掘與研究部任職高級(jí)研究人員。他主持研究開(kāi)發(fā)的基于行為的精準(zhǔn)廣告系統(tǒng),在他離開(kāi)的時(shí)候,為雅虎的年收入貢獻(xiàn)了數(shù)億美元,而他剛進(jìn)雅虎時(shí),雅虎原有的廣告系統(tǒng)年收入只有100多萬(wàn)美元。
互聯(lián)網(wǎng)由于其超乎尋常的海量數(shù)據(jù),開(kāi)發(fā)人員要直面全新的挑戰(zhàn),而且,在這種數(shù)據(jù)規(guī)模“從量變到質(zhì)變”的過(guò)程中,以往不成問(wèn)題的問(wèn)題也變得很成問(wèn)題了。因此,研發(fā)人員的經(jīng)驗(yàn)和見(jiàn)識(shí)就變得十分重要了。
雅虎當(dāng)時(shí)有5億多注冊(cè)用戶,根據(jù)用戶以往瀏覽習(xí)慣等方式積累的信息量很多,雅虎僅是對(duì)這些信息進(jìn)行的分類就有數(shù)千種。
尹紅風(fēng)坦言,在雅虎學(xué)到了很多東西,其中最大的收獲是,從一開(kāi)始就在雅虎最核心的部門工作,整日在全球最大的數(shù)據(jù)平臺(tái)上工作,經(jīng)歷了從項(xiàng)目開(kāi)發(fā)直到產(chǎn)生顯著經(jīng)濟(jì)效益的完整過(guò)程,這種經(jīng)歷和經(jīng)驗(yàn)是十分難得的。
到了2007年,他認(rèn)為本應(yīng)做得很好的雅虎在企業(yè)發(fā)展方向上出了問(wèn)題,于是,他離開(kāi)了雅虎。
2008年,尹紅風(fēng)創(chuàng)辦了Yebol公司,去實(shí)現(xiàn)自己久久縈繞心中的夢(mèng)想。
新搜索:勝算算法
“Google副總裁說(shuō)的沒(méi)錯(cuò),現(xiàn)有搜索技術(shù)中90%的問(wèn)題已經(jīng)解決。但新一代搜索技術(shù)自身的問(wèn)題,解決的還不到10%。”尹紅風(fēng)在越洋電話中說(shuō)。
“回顧搜索歷史,剛開(kāi)始時(shí),雅虎可以用人工對(duì)網(wǎng)站進(jìn)行目錄分類,因?yàn)楫?dāng)時(shí)網(wǎng)站只有幾百個(gè)。當(dāng)網(wǎng)站數(shù)量到了百萬(wàn)規(guī)模時(shí),人工方法就難以為繼了,于是搜索應(yīng)運(yùn)而生。但現(xiàn)有的搜索也有它自身的問(wèn)題,在Google上搜索一下Google,搜索結(jié)果有20多億個(gè),這種線性排列的方式有多大意義呢?”
Yebol的搜索技術(shù)源于尹紅風(fēng)在中科院自動(dòng)化所進(jìn)行的用聯(lián)想記憶模式和人工神經(jīng)元網(wǎng)絡(luò)來(lái)對(duì)人類的形象思維進(jìn)行模擬。當(dāng)這一研究成果用于搜索網(wǎng)站,使得智能知識(shí)庫(kù)建立成為可能。由機(jī)器生成的知識(shí)庫(kù)系統(tǒng)能處理上萬(wàn)億條詞目,比維基百科等人工生成的有數(shù)百萬(wàn)條詞目的知識(shí)庫(kù)規(guī)模高出幾個(gè)數(shù)量級(jí),生成速度更是人工方式望塵莫及的。
但機(jī)器自動(dòng)生成的知識(shí)庫(kù)不如人工生成的精確。于是,Yebol整合了機(jī)器算法和人的知識(shí)為每一次查詢建立一份網(wǎng)站目錄,運(yùn)用關(guān)聯(lián)、聚類和分類的算法自動(dòng)為查詢生成知識(shí)。
尹紅風(fēng)表示,基于知識(shí)的搜索從根本上改變了搜尋結(jié)果的顯示方式,Yebol可以在傳統(tǒng)顯示10個(gè)鏈接的頁(yè)面上,顯示上百條經(jīng)過(guò)分類的鏈接。這就大大減少了用戶查找目標(biāo)信息的時(shí)間,同時(shí)也給用戶提供了豐富的瀏覽渠道。
記者認(rèn)為,Yebol抓取了10億個(gè)網(wǎng)頁(yè),建立了1000萬(wàn)個(gè)詞目的知識(shí)庫(kù),費(fèi)用一定不菲,因?yàn)镚oogle幾年前對(duì)外宣布的網(wǎng)頁(yè)數(shù)為80億個(gè),而Google在服務(wù)器和存儲(chǔ)方面的投資非常大。
“我們的系統(tǒng)放在亞馬遜的云計(jì)算平臺(tái)上,只需一個(gè)指令發(fā)過(guò)去,就可以擴(kuò)展資源;而在雅虎,則要寫(xiě)申請(qǐng),然后層層上報(bào),直到雅虎的兩名創(chuàng)始人之一大衛(wèi)·費(fèi)羅批準(zhǔn),這一過(guò)程可能要耗時(shí)數(shù)月。”尹紅風(fēng)回應(yīng)說(shuō)。
云計(jì)算的“硬件和平臺(tái)即服務(wù)”這樣的以租代購(gòu)理念,使得像Yebol這樣的新興互聯(lián)網(wǎng)公司免除了資金和系統(tǒng)規(guī)模迅速擴(kuò)張等后顧之憂。因此,尹紅風(fēng)很有底氣地說(shuō):“我們計(jì)劃抓取100億的網(wǎng)頁(yè),建立擁有1億個(gè)概念的知識(shí)庫(kù)。”
新一代搜索引擎會(huì)顛覆或者與現(xiàn)有搜索引擎共存嗎?尹紅風(fēng)沒(méi)有直接回答這個(gè)問(wèn)題,他說(shuō):“5年前,我在自動(dòng)化所說(shuō)過(guò),10年后,現(xiàn)有的搜索將會(huì)被淘汰,因?yàn)樾畔⑻?,產(chǎn)生的速度太快,而現(xiàn)有搜索技術(shù)在相關(guān)性上提高的空間已經(jīng)很小了,因而很難適應(yīng)這種變化。這才過(guò)去5年,我們已經(jīng)看到這種趨勢(shì)了。”
回國(guó)發(fā)展,但又……
Yebol正在北京組建研發(fā)團(tuán)隊(duì),招募軟件工程師。他們希望把這些人送到硅谷培訓(xùn)數(shù)月,增長(zhǎng)才干,開(kāi)拓眼界。
現(xiàn)如今,“投資少、見(jiàn)效快”的垂直搜索在國(guó)內(nèi)炙手可熱,Yebol也嘗試著申請(qǐng)國(guó)家在搜索方面的項(xiàng)目或基金,但弄來(lái)弄去,就歸到了垂直搜索那一堆兒了。這讓廣義搜索的Yebol有點(diǎn)郁悶。
強(qiáng)將手下無(wú)弱兵
——戴汝為院士談弟子尹紅風(fēng)
“尹紅風(fēng)碩士念的是信息工程,有一次他把一本認(rèn)知科學(xué)方面的書(shū)帶到班上,結(jié)果,讓老師狠狠地說(shuō)了一通,認(rèn)為這和他的專業(yè)沒(méi)有關(guān)系。”中科院院士、中國(guó)自動(dòng)化學(xué)會(huì)理事長(zhǎng)戴汝為在《中國(guó)計(jì)算機(jī)報(bào)》記者面前對(duì)他的弟子昔日的趣事如數(shù)家珍。
戴先生的少年是在西南聯(lián)大附小附中度過(guò)的,后考入清華大學(xué),1952年院系調(diào)整時(shí),由于學(xué)的是理科,被調(diào)到了北大。戴先生畢業(yè)后來(lái)到中科院力學(xué)所,恰逢錢學(xué)森回國(guó)后在力學(xué)所講述工程控制論,之后,戴先生作為第一譯者把錢先生的學(xué)術(shù)名著《工程控制論》譯成中文。一路名校和名師的栽培,對(duì)戴先生嚴(yán)謹(jǐn)?shù)膶W(xué)術(shù)研究風(fēng)范的形成影響頗大,因此,戴先生十分看重弟子的科研作風(fēng)。
上個(gè)世紀(jì)70年代,戴先生的研究重心從控制領(lǐng)域轉(zhuǎn)入人工智能領(lǐng)域。在模式識(shí)別、人工神經(jīng)網(wǎng)絡(luò)、知識(shí)工程、復(fù)雜系統(tǒng)等方面做了大量開(kāi)創(chuàng)性的工作,特別是在上個(gè)世紀(jì)80年代和錢先生有關(guān)思維科學(xué)的多次書(shū)信來(lái)往,開(kāi)創(chuàng)并推動(dòng)了這一新興學(xué)科的發(fā)展。
戴先生自己的研究經(jīng)歷是很開(kāi)放的,因此,當(dāng)尹紅風(fēng)跟戴先生談了自己的想法時(shí),戴先生非但沒(méi)有生氣,反而鼓勵(lì)他去研究,并在思維和人工智能方面對(duì)他悉心指導(dǎo)。1989年5月,尹紅風(fēng)將4萬(wàn)多字的研究成果寄給了錢先生。很快,錢先生給戴先生和尹紅風(fēng)回信,他在信中稱贊這項(xiàng)研究可以寫(xiě)成劃時(shí)代的經(jīng)典文章。國(guó)內(nèi)歷史最悠久的《計(jì)算機(jī)研究與發(fā)展》在1990年第4期把《論思維與模擬智能》作為首篇文章予以刊登,尹紅風(fēng)是該文的第一作者。
多年來(lái),尹紅風(fēng)一直把錢先生給他的有關(guān)思維的3封信的復(fù)印件放在公文包里來(lái)激勵(lì)自己。而戴先生涉獵的領(lǐng)域與尹紅風(fēng)研究的基于知識(shí)的搜索技術(shù)關(guān)系密切。 (本文來(lái)源:賽迪網(wǎng)-中國(guó)計(jì)算機(jī)報(bào) 作者:馬文方)
聯(lián)系客服