7月24日凌晨,現(xiàn)年40歲的英國(guó)Autonomy全球CEO邁克·林奇( Mike Lynch )和公司COO安迪·康特(Andy katner)一行從英國(guó)飛抵北京國(guó)際機(jī)場(chǎng)。自2003年Autonomy進(jìn)入中國(guó)市場(chǎng)以來(lái),這還是邁克·林奇第二次來(lái)華——此前的一次是去年3月,當(dāng)時(shí)由他親自操刀,Autonomy首次在國(guó)內(nèi)互聯(lián)網(wǎng)搜索市場(chǎng)進(jìn)行了前期部署。
盡管Autonomy大中華區(qū)首席代表伍昕對(duì)邁克·林奇此行的計(jì)劃諱莫如深,但記者從多種途徑獲悉,邁克·林奇此次來(lái)華,可能主要是為在企業(yè)級(jí)搜索市場(chǎng)進(jìn)行相關(guān)投資。
暗戰(zhàn)企業(yè)搜索
公開(kāi)資料顯示,Autonomy成立于1996年,曾先后在布魯賽爾的EASDAQ、倫敦股票交易所和美國(guó)NASDAQ上市,但因?yàn)橐幌驅(qū)W⒂谄髽I(yè)級(jí)搜索市場(chǎng),其名頭遠(yuǎn)不如專注于互聯(lián)網(wǎng)搜索的Google來(lái)得響亮,雖然自2005年11月以5億美元完成對(duì)另一家企業(yè)搜索廠商Verity的收購(gòu)后,Autonomy在企業(yè)搜索市場(chǎng)的份額已飆升至80%,遠(yuǎn)超排名第二的Fast及微軟、Google、IBM等廠商。
不過(guò),有跡象表明,Autonomy已有意整個(gè)切入到第三代互聯(lián)網(wǎng)搜索領(lǐng)域。2004年7月Autonomy通過(guò)其位于美國(guó)舊金山的控股公司Blinkx推出的視頻搜索門戶Blinkx,可視為其向互聯(lián)網(wǎng)搜索市場(chǎng)延伸的試探性舉措。
不無(wú)意味的是,在Autonomy向web搜索進(jìn)行外延擴(kuò)張的同時(shí),web搜索市場(chǎng)巨頭Google、MSN等也在悄然向企業(yè)搜索市場(chǎng)滲透。
自2002年推出搜索專用設(shè)備GSA起,Google就一直不斷擴(kuò)展其企業(yè)搜索業(yè)務(wù)線,包括推出Gmail的改良版和桌面搜索工具,以便通過(guò)捆綁不同的產(chǎn)品模塊形成整合優(yōu)勢(shì)。但由于種種原因,從那時(shí)迄今,其市場(chǎng)份額一直徘徊于1%以下,難有突破。為此,2003年,Google高層曾就是否砍掉企業(yè)搜索業(yè)務(wù)進(jìn)行過(guò)多次激辯,最后還是決定保留下來(lái),以觀后效。
此后,Google投注到企業(yè)市場(chǎng)的砝碼愈來(lái)愈大。今年一季度,Google先是推出了一款面向小型企業(yè)的新版Google Mini搜索工具,并在其中集成了企業(yè)版桌面搜索功能,接著又推出企業(yè)搜索設(shè)備OneBox 的升級(jí)版以及售價(jià)更高的企業(yè)級(jí)搜索工具。盡管并無(wú)革命性的技術(shù),但憑借同業(yè)最低價(jià)和個(gè)人市場(chǎng)的用戶口碑,Google已開(kāi)始慢慢打開(kāi)局面。
與此同時(shí),包括微軟MSN、IBM在內(nèi)的軟件巨頭也磨刀霍霍,試圖在走入上升通道的企業(yè)搜索市場(chǎng)取一瓢飲。今年5月,在微軟發(fā)布最新的企業(yè)搜索工具之后,微軟首席運(yùn)營(yíng)官特納在一次會(huì)議上甚至對(duì)外放話說(shuō):“企業(yè)搜索是我們的地盤,我們不會(huì)讓Google奪走它。”
而IBM,雖然沒(méi)有如此張揚(yáng),卻也在暗中畜勢(shì),一面打造看家搜索產(chǎn)品,一面則遠(yuǎn)交近攻,與Google、百度等搜索廠商展開(kāi)多種合作。
出人意料的倒是百度。就在邁克·林奇來(lái)華的前夕,百度不光一股腦砍掉了運(yùn)營(yíng)企業(yè)搜索業(yè)務(wù)的ES部門,還裁撤了該部門的大部分員工,從此將企業(yè)搜索從自己的擴(kuò)張版圖中一筆勾銷。百度對(duì)外的解釋是,企業(yè)軟件與公司的搜索核心業(yè)務(wù)背離,且只占據(jù)很少的業(yè)務(wù)線,比例不到2%;選擇撤銷,是為了騰出精力發(fā)展包括競(jìng)價(jià)排名、精準(zhǔn)廣告在內(nèi)的互聯(lián)網(wǎng)搜索業(yè)務(wù)。
有消息說(shuō),百度的部分離職員工已向Autonomy以及國(guó)內(nèi)另一家企業(yè)搜索廠商TRS投遞簡(jiǎn)歷并接受面試,但這一消息沒(méi)有得到上述兩家企業(yè)的確認(rèn)。
算法之爭(zhēng)
業(yè)內(nèi)人士認(rèn)為,包括Google、MSN、百度在內(nèi)的基于關(guān)鍵詞搜索的廠商之所以遲遲難以在企業(yè)搜索市場(chǎng)打開(kāi)局面,取得較大的市場(chǎng)份額,與關(guān)鍵詞搜索引擎技術(shù)本身的算法局限性有關(guān)。
以pagerank為代表的超鏈分析技術(shù),大多基于如下假設(shè):某個(gè)網(wǎng)頁(yè)被鏈接得越多,則其重要性就越大。由于只是根據(jù)網(wǎng)頁(yè)之間的超鏈關(guān)系來(lái)決定網(wǎng)頁(yè)內(nèi)容的重要程度,又只限于提取關(guān)鍵詞而不是提取基于內(nèi)容識(shí)別的概念,該算法一當(dāng)面臨企業(yè)級(jí)的精準(zhǔn)搜索要求時(shí),就顯得捉襟見(jiàn)肘。雖然Google已試圖引進(jìn)其他算法來(lái)克服這一局限性,但迄今收效甚微。
在看到pagerank的局限性以后,一些新興的搜索公司已開(kāi)始嘗試更新的算法。例如Clusty,該公司通過(guò)借鑒Autonomy的模式識(shí)別技術(shù)以及自動(dòng)分類等功能,可基于對(duì)概念的理解提供搜索結(jié)果的自動(dòng)分類等功能。
Autonomy的模式識(shí)別技術(shù)的理論支撐點(diǎn)是貝葉斯概率論和申農(nóng)信息論,其核心是一個(gè)名為智能信息操作層(IDOL)的底層技術(shù)。因?yàn)椴灰蕾囉谡Z(yǔ)言分析,而只是把語(yǔ)言當(dāng)成一種符號(hào),根據(jù)關(guān)鍵詞的出現(xiàn)頻率來(lái)識(shí)別不同文本在上下文環(huán)境中的模式,以此來(lái)抽取文檔中的文本要素進(jìn)行概念識(shí)別,因此,相比于pagerank算法,IDOL可以提供更精確的文本上下文分析和概念抽取,進(jìn)而對(duì)信息進(jìn)行超鏈接、自動(dòng)聚類、自動(dòng)分類、主動(dòng)匹配、信息地圖等自動(dòng)化操作。
搜索3.0浮現(xiàn)
Google、百度等當(dāng)然沒(méi)有停止對(duì)核心算法的改進(jìn),不管是簡(jiǎn)單的修修補(bǔ)補(bǔ),還是投資浩大的技術(shù)研發(fā)。
多種證據(jù)顯示,Google正準(zhǔn)備研發(fā)包括語(yǔ)義搜索在內(nèi)的下一代智能搜索引擎,微軟也開(kāi)始研發(fā)基于Web Block(網(wǎng)頁(yè)塊)而不是網(wǎng)頁(yè)的搜索技術(shù),而一家叫Senopy的公司則正在研究自然語(yǔ)言搜索引擎。
同樣研發(fā)自然語(yǔ)言搜索技術(shù)的還有IBM。據(jù)悉,IBM公司的研究和開(kāi)發(fā)部門在UIMA平臺(tái)上早已開(kāi)始進(jìn)行基于語(yǔ)言分析、知識(shí)庫(kù)、問(wèn)答系統(tǒng)、機(jī)器翻譯等功能的自然語(yǔ)言搜索研究。
在國(guó)內(nèi),暗中著手人工智能搜索的還包括百度、搜狗、海量科技、Aisou等。其中海量推出的digdig更聲稱已掌握了基于“語(yǔ)義數(shù)據(jù)挖掘”的中文信息處理技術(shù),并涉足到軟件、人物、圖片等垂直搜索領(lǐng)域。不妨順帶提及的是,在2003年Autonomy進(jìn)軍中國(guó)之初,采用的就是海量的中文分詞技術(shù)。
伍昕告訴記者,目前通過(guò)語(yǔ)義分析進(jìn)入第三代搜索的路徑大約有三種:一種是通過(guò)真正的語(yǔ)法、詞法分析理解文字,諸如貓狗到底是什么之類,不過(guò)到現(xiàn)在為止,上述努力基本上無(wú)大建樹(shù),因?yàn)檎Z(yǔ)言比我們想象的要復(fù)雜得多,計(jì)算機(jī)要想完全理解語(yǔ)言,幾乎是不可能的;還有一種是模仿人腦進(jìn)行人工智能分析,但由于比起所需要的精確度,現(xiàn)有電腦的處理能力還遠(yuǎn)遠(yuǎn)不夠,因此該方法雖然可以做到一定程度的精確搜索,但至少眼下看來(lái)還難有大成;第三種是基于概率論和信息論的模型匹配技術(shù),即通過(guò)統(tǒng)計(jì)分析理解文章的核心概念及概念間的關(guān)系。
算法之外,搜索引擎領(lǐng)域的另一個(gè)發(fā)展重點(diǎn)是對(duì)搜索結(jié)果呈現(xiàn)方式的處理。在美國(guó),像Grokker、Snap這樣的后起之秀即以更個(gè)性化的搜索結(jié)果分類、呈現(xiàn)方式等為招徠,吸引了大批忠誠(chéng)用戶。
不過(guò)伍昕表示,上述以web2.0為賣點(diǎn)的搜索引擎仍沒(méi)有走出將非結(jié)構(gòu)化信息進(jìn)行結(jié)構(gòu)化處理的誤區(qū),其特征之一就是把每個(gè)信息都人工打上標(biāo)簽,依此來(lái)進(jìn)行人工分類和信息聚合,這其實(shí)是吃力不討好的一件事。因?yàn)槊總€(gè)文檔、網(wǎng)頁(yè)上的信息都涵蓋眾多,張貼一個(gè)或幾個(gè)標(biāo)簽,不光不確切、有歧義,而且容易丟掉很多信息,于是給信息管理制造出新的難題。更好的做法應(yīng)該是對(duì)文章的內(nèi)容進(jìn)行分析和概念提取,基于此,真正的關(guān)聯(lián)、分類和聚類才成為可能。
“互聯(lián)網(wǎng)其實(shí)是一個(gè)語(yǔ)義網(wǎng),Google只做到了很淺的一部分,就是通過(guò)關(guān)鍵詞搜索把信息從一個(gè)地方搬到另一個(gè)地方,但其實(shí)這里面可以構(gòu)建一個(gè)知識(shí)網(wǎng),而搜索引擎應(yīng)該成為這個(gè)知識(shí)網(wǎng)的操作系統(tǒng)。”伍昕說(shuō)。
促使搜索引擎成為信息操作系統(tǒng),這其實(shí)一直是每一個(gè)搜索廠商的終極目標(biāo)。不論是個(gè)性化搜索、社區(qū)化搜索、知識(shí)問(wèn)答社區(qū),還是人工智能、模式匹配、語(yǔ)義搜索,都是這一努力不可分割的一部分。盡管眼下關(guān)于第三代搜索引擎的激辯中不無(wú)喧嘩的噪音,也不無(wú)誤入歧途的風(fēng)險(xiǎn),但呼聲甚高的第三代搜索引擎或者搜索3.0的浮現(xiàn)和大面積井噴,相信只是個(gè)時(shí)間問(wèn)題。
聯(lián)系客服