通用搜索引擎在某些方面的表現(xiàn)越來越差強(qiáng)人意,一種全新的基于對象的垂直搜索技術(shù)更加一目了然。
本刊記者 李洋
小李要買一部智能手機(jī),想了解幾款產(chǎn)品的介紹、價(jià)位和評價(jià)等信息。但是當(dāng)他用通用搜索引擎查找信息時(shí),卻得到了五花八門的結(jié)果。令人頭疼的是,他必須挨個(gè)點(diǎn)進(jìn)鏈接,注冊一堆論壇賬號,還要自己把各種看到的信息綜合起來,才能獲得關(guān)于這部手機(jī)的完整資料。
是的,通用搜索引擎在某些方面的表現(xiàn)越來越差強(qiáng)人意。那么,如何讓搜索結(jié)果變得更加一目了然?微軟亞洲研究院的聶再清和文繼榮研究員,向《互聯(lián)網(wǎng)周刊》介紹了一種由他們研究成功的“對象級別的垂直搜索技術(shù)”(Object-level Vertical Search)。
一目了然的結(jié)果
這個(gè)聽起來有點(diǎn)學(xué)術(shù)化的技術(shù)其實(shí)并不難理解。當(dāng)你使用這種搜索引擎時(shí),它列出的結(jié)果將是最終對象的集合,而不是雜亂的網(wǎng)頁列表。一切的一切都圍繞著你所搜索的那個(gè)對象。
比如,當(dāng)你搜索“多普達(dá)”時(shí),系統(tǒng)列出的不是包含此信息的各種頁面標(biāo)題、內(nèi)容檢索,而是一個(gè)個(gè)多普達(dá)手機(jī)—除型號、圖片等直觀信息外,每個(gè)產(chǎn)品下還列出介紹、價(jià)格、用戶評價(jià)等相關(guān)信息,就像我們在購物網(wǎng)站中看到的陳列頁面一樣,但內(nèi)容要遠(yuǎn)比某個(gè)網(wǎng)站所陳列的豐富,因?yàn)槭莵碜哉麄€(gè)互聯(lián)網(wǎng)。搜索引擎所列出的對象內(nèi)容并不是通過人工來整理的,而是計(jì)算機(jī)通過自動(dòng)抓取、自動(dòng)分類而形成的“虛擬”頁面。
這項(xiàng)技術(shù)目前已經(jīng)獲得初步應(yīng)用。在微軟亞洲研究院作為實(shí)驗(yàn)的學(xué)術(shù)搜索(libra.msra.cn/)中,當(dāng)你輸入“Data Mining”(數(shù)據(jù)挖掘)這一關(guān)鍵詞,便可獲得相關(guān)論文的排名列表。結(jié)果以論文為對象進(jìn)行排列,每篇論文下都可列出被引用次數(shù)和作者;點(diǎn)進(jìn)每篇論文的鏈接,可以看到該論文的介紹、可供瀏覽和下載的原始鏈接,以及相關(guān)的參考論文。
與此同時(shí),在論文的結(jié)果列表左側(cè),還有相關(guān)作者、會(huì)議、期刊的排名。如果再按“作者”(Author)搜索,系統(tǒng)會(huì)自動(dòng)排列出“數(shù)據(jù)挖掘”領(lǐng)域內(nèi)最權(quán)威的科學(xué)家名單,與此類似的,你還可以進(jìn)行相關(guān)的會(huì)議、期刊和學(xué)術(shù)社區(qū)等方面的搜索。目前,微軟的該學(xué)術(shù)搜索還僅限于計(jì)算機(jī)領(lǐng)域。
與基于文字的搜索結(jié)果相比,基于對象的搜索結(jié)果顯然更加一目了然,實(shí)現(xiàn)更加垂直而專業(yè)的搜索效果。目前,這項(xiàng)來自微軟亞洲研究院的技術(shù),正在應(yīng)用到Windows Live產(chǎn)品搜索引擎(Http://products.live.com)的測試版開發(fā)中。以產(chǎn)品作為對象的搜索結(jié)果中,用戶還可以按照相關(guān)度、價(jià)格進(jìn)行排名,或按照一些熱點(diǎn)針對某家網(wǎng)站進(jìn)行搜索。
核心技術(shù)
那么,這項(xiàng)技術(shù)是如何實(shí)現(xiàn)的?細(xì)心的讀者可能從前面的介紹中看出端倪,這是區(qū)別于傳統(tǒng)搜索引擎思路的一個(gè)新的體系結(jié)構(gòu)。
首先,它要依靠網(wǎng)頁爬蟲技術(shù),抓取某一個(gè)特定領(lǐng)域(比如一個(gè)照相機(jī)產(chǎn)品)中的所有相關(guān)網(wǎng)頁。在獲得這些頁面后,系統(tǒng)要對這些網(wǎng)頁中所包含的對象信息類型進(jìn)行分類,也就是說,它要分辨某個(gè)網(wǎng)頁究竟是一篇論文、一個(gè)博客頁面,還是一個(gè)商品信息頁面。
在完成了這項(xiàng)工作后,系統(tǒng)就可以分門別類地將內(nèi)容集成到對象信息倉庫中。而這項(xiàng)工作需要事前進(jìn)行大量的訓(xùn)練和模型組建。比如,在一個(gè)商品頁面的訓(xùn)練中,要告訴系統(tǒng)什么情況下是商品名稱、商品圖片、價(jià)格;通過此類學(xué)習(xí)之后,系統(tǒng)就可以自動(dòng)找到它所要的關(guān)鍵內(nèi)容。
在這一領(lǐng)域的研究中,曾有人在HTML代碼上做過嘗試,卻都不太成功,因?yàn)榇a的編寫總是千差萬別的,但最后它們所實(shí)現(xiàn)的頁面顯示卻幾乎大同小異。在發(fā)現(xiàn)了這一點(diǎn)后,微軟亞洲研究院的研究員們在這一過程中巧妙地結(jié)合了視覺分析技術(shù),設(shè)計(jì)一些算法讓計(jì)算機(jī)能夠像人類一樣,看到一個(gè)頁面的“興趣中心”,并智能地做出判斷。
在進(jìn)行了抓取、分類、抽取之后,垂直搜索引擎就可以利用這些結(jié)構(gòu)化的對象信息,來應(yīng)對用戶的提問,進(jìn)行各種智能分析和挖掘工作。
推翻現(xiàn)有架構(gòu)
這樣一種技術(shù)是具有革命性的。用戶可以利用它進(jìn)行各種垂直類的深度搜索。它在推翻即有架構(gòu)之后,無疑要比傳統(tǒng)搜索引擎經(jīng)受更多的考驗(yàn)。
比如,要保證結(jié)構(gòu)化信息的高質(zhì)量、全面性、準(zhǔn)確度。并且,由于這一搜索引擎的數(shù)據(jù)庫,要存儲互聯(lián)網(wǎng)上以及各地離線數(shù)據(jù)庫中的相關(guān)對象信息,對存儲和運(yùn)行規(guī)模的可伸縮性也提出了挑戰(zhàn),這一技術(shù)必須擁有一個(gè)能夠存儲數(shù)以十萬計(jì)的“超級數(shù)據(jù)庫”,并且保證其算法能夠足夠快速地進(jìn)行檢索。
在給用戶帶來便利的同時(shí),新的搜索引擎帶來了一系列圍繞技術(shù)規(guī)則改變而衍生的商業(yè)模式潛在變化。比如,在基于對象的搜索引擎中,傳統(tǒng)的網(wǎng)頁排名方法(PageRank)已不適用。微軟亞洲研究院的研究員們提出了流行度排級(PopRank)。
這項(xiàng)所搜即所得的技術(shù)具有很強(qiáng)的通用性,除了產(chǎn)品搜索、學(xué)術(shù)搜索外,還可以應(yīng)用到黃頁、博客、人物、工作職位、飯館、機(jī)票搜索等多種垂直搜索領(lǐng)域,而其與電子商務(wù)的結(jié)合、新廣告形式的衍生,將是一個(gè)嶄新的話題。