傳統(tǒng)搜索引擎 1. 搜索引擎的分類 互聯(lián)網(wǎng)的迅速發(fā)展和廣泛普及導(dǎo)致網(wǎng)上信息爆炸性增長(zhǎng)。目前存在數(shù)量眾多的搜索引擎,根據(jù)它們所基于的技術(shù)原理,可以把它們分成三大主要類型:基于機(jī)器人Robot的搜索引擎、目錄式Directory(也叫做Catalog)搜索引擎和Meta元搜索引擎。 基于機(jī)器人Robot的搜索引擎 這種搜索引擎的特點(diǎn)是利用一個(gè)稱為Robot(也叫做Spider、Web Crawler或Web Wanderer)的程序以某種策略自動(dòng)地在互聯(lián)網(wǎng)中收集和發(fā)現(xiàn)信息,由索引器為收集到的信息建立索引,由檢索器根據(jù)用戶的查詢輸入檢索索引庫(kù),并將查詢結(jié)果返回給用戶。服務(wù)方式是面向網(wǎng)頁(yè)的全文檢索服務(wù)。 基于Robot的搜索引擎一般要定期訪問(wèn)大多數(shù)以前收集的網(wǎng)頁(yè),刷新索引,以反映出網(wǎng)頁(yè)的更新情況,去除一些死鏈接,網(wǎng)頁(yè)的部分內(nèi)容和變化情況將會(huì)反映到用戶查詢的結(jié)果中,這是基于Robot的搜索引擎的一個(gè)重要特征。 該類搜索引擎的優(yōu)點(diǎn)是信息量大、更新及時(shí)、毋需人工干預(yù)。缺點(diǎn)是返回信息過(guò)多,有很多無(wú)關(guān)信息,用戶必須從結(jié)果中進(jìn)行篩選。這類搜索引擎的代表是:AltaVista、Northern Light、Excite、Infoseek、Inktomi、FAST、Lycos、Google;國(guó)內(nèi)代表為:百度、悠游、OpenFind等。 目錄式Directory搜索引擎 這種搜索引擎以人工方式或半自動(dòng)方式收集信息。目錄式搜索引擎的數(shù)據(jù)庫(kù)是依靠專職編輯或志愿人員建立起來(lái)的,這些編輯人員在訪問(wèn)了某個(gè)Web站點(diǎn)后撰寫一段對(duì)該站點(diǎn)的描述,并根據(jù)站點(diǎn)的內(nèi)容和性質(zhì)將其歸為一個(gè)預(yù)先分好的類別,把站點(diǎn)的URL和描述放在這個(gè)類別中。信息大多面向網(wǎng)站,提供目錄瀏覽服務(wù)和直接檢索服務(wù)。很多目錄也接受用戶提交的網(wǎng)站和描述,當(dāng)目錄的編輯人員認(rèn)可該網(wǎng)站及描述后,就會(huì)將之添加到合適的類別中。 目錄的用戶界面基本上都是分級(jí)結(jié)構(gòu),首頁(yè)提供了最基本的幾個(gè)大類的入口,用戶可以一級(jí)一級(jí)地向下訪問(wèn),直至找到自己感興趣的類別。另外,用戶也可以利用目錄提供的搜索功能直接查找一個(gè)關(guān)鍵詞,該類搜索引擎因?yàn)榧尤肓巳说闹悄?,因此用戶從目錄搜索得到的結(jié)果往往比從基于Robot的搜索引擎得到的結(jié)果更具參考價(jià)值,缺點(diǎn)是需要人工介入、維護(hù)量大、信息量少、信息更新不及時(shí)。這類搜索引擎的代表是:Yahoo、AOL、Lycos、Open Directory等。 Meta元搜索引擎 元搜索引擎(Metasearch Engine),被稱為搜索引擎之上的搜索引擎。用戶只需遞交一次檢索請(qǐng)求,由元搜索引擎負(fù)責(zé)轉(zhuǎn)換處理后提交給多個(gè)預(yù)先選定的獨(dú)立搜索引擎,并將所有查詢結(jié)果集中起來(lái)以整體統(tǒng)一的格式呈現(xiàn)到用戶面前。由于采用了一系列的優(yōu)化運(yùn)行機(jī)制,它能夠在盡可能短的時(shí)間內(nèi)提供相對(duì)全面、準(zhǔn)確的信息,而且即使不能完全滿足用戶需求,仍可以作為相對(duì)可靠的參考源進(jìn)行擴(kuò)展搜索,因此成為備受推崇的檢索首選入口。 一個(gè)真正的元搜索引擎由三部分組成,即:檢索請(qǐng)求提交機(jī)制、檢索接口代理機(jī)制、檢索結(jié)果顯示機(jī)制?!罢?qǐng)求提交”負(fù)責(zé)實(shí)現(xiàn)用戶“個(gè)性化”的檢索設(shè)置要求,包括調(diào)用哪些搜索引擎、檢索時(shí)間限制、結(jié)果數(shù)量限制等?!敖涌诖怼必?fù)責(zé)將用戶的檢索請(qǐng)求“翻譯”成滿足不同搜索引擎“本地化”要求的格式?!敖Y(jié)果顯示”負(fù)責(zé)所有源搜索引擎檢索結(jié)果的去重、合并、輸出處理等。這類搜索引擎的代表是:ByteSearch、Mamma、MetaCrawler、Profusion等。 2. 傳統(tǒng)搜索技術(shù)的局限 信息丟失 一般來(lái)說(shuō),目錄式的搜索引擎由于目錄只在對(duì)站點(diǎn)的描述中進(jìn)行搜索,因此站點(diǎn)本身的動(dòng)態(tài)變化不會(huì)反映到搜索結(jié)果中來(lái),對(duì)網(wǎng)站的描述也十分簡(jiǎn)略,其描述能力不能深入網(wǎng)站的內(nèi)部細(xì)節(jié),因此用戶不能查詢網(wǎng)站內(nèi)部的重要信息,造成了信息丟失。 返回信息太多 基于機(jī)器人的搜索引擎由于應(yīng)用了全文檢索技術(shù),能夠解決對(duì)網(wǎng)頁(yè)細(xì)節(jié)的檢索問(wèn)題。從理論上說(shuō),只要網(wǎng)頁(yè)上出現(xiàn)了某個(gè)關(guān)鍵詞,就能夠使用全文檢索用關(guān)鍵詞匹配把該網(wǎng)頁(yè)查出來(lái),但是這又導(dǎo)致了它的缺陷——返回的信息太多。 信息無(wú)關(guān) 返回信息過(guò)多只是全文檢索給人直觀感覺到的問(wèn)題。除此之外,它還有兩個(gè)不很直觀的深層次問(wèn)題也給信息檢索帶來(lái)了不少困難。 很多情況下,用戶很難簡(jiǎn)單地用關(guān)鍵詞或關(guān)鍵詞串來(lái)忠實(shí)地表達(dá)他所真正需要檢索的內(nèi)容,表達(dá)困難導(dǎo)致檢索困難。 人類的自然語(yǔ)言中,隨著時(shí)間、地域或領(lǐng)域的改變,同一概念可以用不同的語(yǔ)言表現(xiàn)形式來(lái)表達(dá)。因此,對(duì)同一概念的檢索,不同的用戶可能使用不同的關(guān)鍵詞來(lái)查詢。 這個(gè)兩個(gè)問(wèn)題造成的直接結(jié)果就是返回大量的無(wú)關(guān)信息。比如,“計(jì)算機(jī)”和“電腦”是同一類產(chǎn)品,但是搜索結(jié)果往往大不相同。 造成上述信息檢索困難的原因的實(shí)質(zhì)在于傳統(tǒng)的搜索引擎對(duì)要檢索的信息僅僅采用機(jī)械的關(guān)鍵詞匹配來(lái)實(shí)現(xiàn),缺乏知識(shí)處理能力和理解能力,也就是說(shuō)搜索引擎無(wú)法處理在用戶看來(lái)是非常普通的常識(shí)性知識(shí),更不能處理隨用戶不同而變化的個(gè)性化知識(shí)、隨地域不同而變化的區(qū)域性知識(shí)以及隨領(lǐng)域不同而變化的專業(yè)性知識(shí)等等。 因此,結(jié)合人工智能技術(shù)的智能搜索引擎把信息檢索從目前基于關(guān)鍵詞層面提高到基于知識(shí)(或概念)層面,是解決問(wèn)題的根本和關(guān)鍵。 智能搜索引擎 1.智能搜索引擎發(fā)展?fàn)顩r 智能搜索引擎是結(jié)合了人工智能技術(shù)的新一代搜索引擎。由于它將信息檢索從目前基于關(guān)鍵詞層面提高到基于知識(shí)(或概念)層面,對(duì)知識(shí)有一定的理解與處理能力,能夠?qū)崿F(xiàn)分詞技術(shù)、同義詞技術(shù)、概念搜索、短語(yǔ)識(shí)別以及機(jī)器翻譯技術(shù)等。智能搜索引擎具有信息服務(wù)的智能化、人性化特征,允許網(wǎng)民采用自然語(yǔ)言進(jìn)行信息的檢索,為他們提供更方便、更確切的搜索服務(wù)。這類搜索引擎的代表有:尤里卡、問(wèn)一問(wèn)、21ilink、孫悟空、悠游等;國(guó)外代表:Ask jeeves、Google等。 2. 智能搜索引擎的技術(shù) 各個(gè)智能搜索引擎技術(shù)的實(shí)現(xiàn)各不相同、各有特點(diǎn),但從實(shí)現(xiàn)智能搜索基本思路上是相通的。下面以尤里卡搜索引擎為例,簡(jiǎn)要說(shuō)明一下技術(shù)實(shí)現(xiàn)。 知識(shí)庫(kù)和信息庫(kù) 知識(shí)庫(kù)是實(shí)現(xiàn)智能搜索的基礎(chǔ)和核心,知識(shí)庫(kù)就像人腦里存放的知識(shí)。人腦是人們認(rèn)知、理解世界和改造世界的基礎(chǔ)。人腦所做到的不僅僅是對(duì)信息的接受,而是對(duì)信息的判斷、提取、分析和概括之后形成自己的知識(shí),然后保存到大腦中,成為下一次分析、概括的依據(jù)和基礎(chǔ)。這樣,人腦的知識(shí)就處在一種自增長(zhǎng)的過(guò)程。人們掌握知識(shí)的多少,決定了人們認(rèn)知、理解和改造世界的程度。知識(shí)庫(kù)的形成與增長(zhǎng),就如同人腦知識(shí)的增長(zhǎng),也處于一種自增長(zhǎng)自循環(huán)的狀態(tài),知識(shí)庫(kù)的豐富程度也同樣決定著檢索能力的高低。 信息庫(kù)就是互聯(lián)網(wǎng)?;ヂ?lián)網(wǎng)是一個(gè)巨大的、非結(jié)構(gòu)化而且處于不停變化的信息空間。信息庫(kù)可以起到兩方面的作用。首先,信息庫(kù)是知識(shí)庫(kù)存在和發(fā)展的空間,知識(shí)庫(kù)所做的其實(shí)就是對(duì)信息庫(kù)的判斷、提取、分析和概括,所謂知識(shí)是從信息來(lái),就是這個(gè)道理。其次,信息庫(kù)也是用戶所要檢索的內(nèi)容,智能搜索引擎所做的就是通過(guò)知識(shí)庫(kù)把用戶的問(wèn)題提高到知識(shí)(概念)的層面,然后利用這個(gè)知識(shí)(概念)檢索信息庫(kù)。 語(yǔ)義分析、知識(shí)管理和檢索 要做到智能搜索還必須做到知識(shí)庫(kù)和信息庫(kù)的結(jié)合。要做到兩個(gè)核心庫(kù)的有機(jī)結(jié)合要做到以下三點(diǎn):語(yǔ)義分析、知識(shí)管理和知識(shí)檢索。 語(yǔ)義分析是分析用戶語(yǔ)言的具體含義。它應(yīng)該實(shí)現(xiàn)以下幾個(gè)功能:整句分詞、處理同義詞、根據(jù)知識(shí)庫(kù)分析關(guān)鍵詞明確概念和語(yǔ)義及一定程度地豐富知識(shí)庫(kù)。 知識(shí)管理主要實(shí)現(xiàn)知識(shí)庫(kù)的自增長(zhǎng)。前面提到,知識(shí)庫(kù)的增長(zhǎng)基礎(chǔ)是對(duì)信息庫(kù)的概括和提取,所以知識(shí)管理首先要做到對(duì)信息庫(kù)的分析和概括,然后是對(duì)知識(shí)庫(kù)的擴(kuò)充。 知識(shí)檢索是實(shí)現(xiàn)智能搜索的最后一環(huán),通過(guò)前面語(yǔ)義分析結(jié)果,明確用戶用意,對(duì)信息庫(kù)進(jìn)行知識(shí)(概念)層次的檢索,在給出準(zhǔn)確答案的同時(shí),給出用戶相關(guān)問(wèn)題,從多方位對(duì)用戶的問(wèn)題進(jìn)行回答。 3.智能搜索引擎的優(yōu)點(diǎn) 搜索結(jié)果的準(zhǔn)確性 由于采取了知識(shí)庫(kù)為基礎(chǔ)的語(yǔ)義分析,在進(jìn)行檢索過(guò)程中,采用的不是關(guān)鍵詞全文檢索,而是基于概念的檢索。比如說(shuō)當(dāng)你輸入“北京天氣怎么樣?”,傳統(tǒng)搜索引擎返回的結(jié)果連小說(shuō)都檢索出來(lái),因?yàn)樾≌f(shuō)內(nèi)容包括“北京天氣怎么樣?”這句話。而智能搜索引擎,由于采取語(yǔ)義分析的方法,分析出北京天氣這個(gè)概念,直接給出北京的天氣情況預(yù)報(bào)。 搜索結(jié)果的范圍定位準(zhǔn)確 由于采用知識(shí)(概念)檢索技術(shù),明確和縮小了搜索范圍,減少對(duì)無(wú)用信息范圍的檢索。比如上面的例子,智能搜索引擎只在天氣這個(gè)范圍進(jìn)行檢索,從而提高了檢索效率,減少了無(wú)用信息。智能搜索引擎是以搜索結(jié)果準(zhǔn)確、范圍小為特點(diǎn)的。 搜索結(jié)果的綜合性 由于采用了知識(shí)庫(kù),搜索引擎將給用戶提供更全面、更綜合和更合理的知識(shí)框架。在這里,信息檢索只是信息服務(wù)的一部分。比如說(shuō)當(dāng)你輸入“在北京怎么找工作?”,給出的答案不僅僅是給出“北京地區(qū)的招聘信息”,而且還給出“北京地區(qū)的人才政策”、“求職技巧”等信息。 搜索結(jié)果的智能性 所謂“智能來(lái)自知識(shí)”,有綜合知識(shí)庫(kù)作為背景,信息檢索和導(dǎo)航服務(wù)將更智能。知識(shí)庫(kù)中的知識(shí)有助于解決前面提到“表達(dá)差異”問(wèn)題。例如,只要定義“計(jì)算機(jī)”、“電子計(jì)算機(jī)”、“電腦”是同義關(guān)系就可以消除用戶由于使用不同的詞表達(dá)同一概念而帶來(lái)的檢索困難。另一方面,知識(shí)庫(kù)對(duì)用戶的查詢進(jìn)行相關(guān)性聯(lián)想,提供引導(dǎo)用戶進(jìn)行下一步查詢的線索。這樣一步一步地在與用戶的交互過(guò)程中誘導(dǎo)用戶“表達(dá)”出他真正想找的東西,從而實(shí)現(xiàn)對(duì)查詢的智能導(dǎo)航。這種逐步求精的策略解決了信息檢索“忠實(shí)表達(dá)”的難題。 4.智能搜索引擎的發(fā)展與應(yīng)用 建立理論上完備的知識(shí)庫(kù)是不現(xiàn)實(shí)的。這是因?yàn)槿说闹R(shí)、特別是常識(shí)性知識(shí)具有“數(shù)量”上的浩瀚無(wú)際,在“質(zhì)量”上又有高度的不確定性和模糊性,要建立這樣一個(gè)知識(shí)網(wǎng)絡(luò)是極端困難的。 然而,這絲毫不會(huì)影響基于知識(shí)庫(kù)的智能搜索技術(shù)的可行性和可操作性。這是因?yàn)?,理論上完備的知識(shí)庫(kù)雖然難以實(shí)現(xiàn),但是我們可以通過(guò)降低求解目標(biāo)的方法,針對(duì)具體的搜索引擎需求,建立相應(yīng)的知識(shí)庫(kù)(或稱概念圖),這里的知識(shí)庫(kù)是對(duì)理論上完整知識(shí)庫(kù)的一種近似,一種局部實(shí)現(xiàn)。針對(duì)某一領(lǐng)域、甚至某一站點(diǎn)所有網(wǎng)頁(yè)所反映的知識(shí)來(lái)構(gòu)造一個(gè)局部的小知識(shí)庫(kù)是相對(duì)容易實(shí)現(xiàn)的。它的知識(shí)在數(shù)量和質(zhì)量上雖然不能與理想的知識(shí)庫(kù)相比,對(duì)具體搜索任務(wù)卻是實(shí)用的。更重要的是,知識(shí)庫(kù)里的知識(shí)可以在使用中不斷改進(jìn),數(shù)量上不斷增加,質(zhì)量上不斷提高。這是一個(gè)對(duì)知識(shí)進(jìn)行訓(xùn)練的過(guò)程,可以通過(guò)人來(lái)完成,也可以使用機(jī)器學(xué)習(xí)等手段來(lái)實(shí)現(xiàn)。 (轉(zhuǎn)帖)搜索技術(shù)發(fā)展及未來(lái)趨勢(shì) 陸元婕 飛俠 搜索技術(shù)仍不能滿足需求 Internet的迅速發(fā)展和廣泛應(yīng)用導(dǎo)致了網(wǎng)上信息爆炸性地增長(zhǎng)。據(jù)權(quán)威機(jī)構(gòu)統(tǒng)計(jì),網(wǎng)上約有數(shù)十億的網(wǎng)頁(yè),甚至有些專家宣稱網(wǎng)頁(yè)總數(shù)已達(dá)5500億,這一數(shù)字仍然在不斷地快速增長(zhǎng)。因此,如何在龐大的Internet上獲得有價(jià)值的信息已成為網(wǎng)民日益關(guān)注的問(wèn)題。搜索技術(shù)的出現(xiàn)為網(wǎng)民從Internet上快速找到所需信息帶來(lái)了福音。搜索引擎是一種用于幫助Internet用戶查詢信息的搜索工具,它以一定的策略在Internet中搜集、發(fā)現(xiàn)信息,對(duì)信息進(jìn)行理解、提取、組織和處理,并為用戶提供檢索服務(wù),從而起到信息導(dǎo)航的目的。 1993年,Internet上出現(xiàn)了最早的Web瀏覽器Mosaic,次年Netscape推出了Navigator。瀏覽器的發(fā)展促使Web得到迅速推廣,同時(shí)也推動(dòng)了搜索引擎的發(fā)展。 早期的搜索引擎是把Internet中資源服務(wù)器的地址收集起來(lái),由其提供資源的類型不同而分成不同的目錄,再一層層地進(jìn)行分類。人們要找自己想要的信息可按它們的分類一層層進(jìn)入,就能最后到達(dá)目的地,找到自己想要的信息。這其實(shí)是最原始的方式,只適用于Internet信息并不多的時(shí)候。 隨著Internet信息按幾何式增長(zhǎng),出現(xiàn)了最早的真正意義上的搜索引擎——Lycos,它創(chuàng)建于1994年的春天,當(dāng)時(shí)Michael Mauldin將John Leavitt的Spider程序接入到其索引程序中。隨著Yahoo!的出現(xiàn),搜索引擎的發(fā)展也進(jìn)入了黃金時(shí)代,其性能也更加優(yōu)越。 搜索服務(wù)提供者在研發(fā)搜索技術(shù)方面已經(jīng)花費(fèi)了大量的時(shí)間和精力,但是網(wǎng)民對(duì)于現(xiàn)有的搜索技術(shù)是否滿意呢? 2001年,Roper Starch的調(diào)查指出,36%的Internet用戶一個(gè)星期花了超過(guò)2個(gè)小時(shí)時(shí)間在網(wǎng)上搜索;71%的用戶在使用搜索引擎的時(shí)候遇到過(guò)麻煩;平均搜索12分鐘以后發(fā)現(xiàn)搜索受挫;搜索受挫中46%都是因?yàn)殒溄渝e(cuò)誤;絕大部分(86%)的Internet用戶感到應(yīng)當(dāng)出現(xiàn)更有效的、準(zhǔn)確的信息搜索技術(shù)。 另一項(xiàng)由Keen所做的調(diào)查顯示,人們平均每天有四個(gè)問(wèn)題需要從外界獲取答案;其中31%的人使用搜索引擎尋找答案;平均每周花費(fèi)8.75個(gè)小時(shí)找尋答案;53.3%的時(shí)間花在從旁人那里獲得答案,29%的時(shí)間花在親戚朋友身上,24.3%的時(shí)間花在銷售商那里;網(wǎng)上查找答案的,半數(shù)以上都不成功;他們每周將花費(fèi)14.5美元以上,以獲取正確的信息。 從這些調(diào)查數(shù)據(jù)中不難看出,目前的搜索引擎仍然存在不少的局限性。傳統(tǒng)的搜索引擎技術(shù)有哪些局限性呢?主要有信息丟失、返回過(guò)多無(wú)用信息及信息無(wú)關(guān)等幾方面的局限性。造成上述信息檢索困難的原因的實(shí)質(zhì)在于傳統(tǒng)的搜索引擎對(duì)要檢索的信息僅僅采用機(jī)械的關(guān)鍵詞匹配來(lái)實(shí)現(xiàn),缺乏知識(shí)處理能力和理解能力,也就是說(shuō)搜索引擎無(wú)法處理在用戶看來(lái)是非常普通的常識(shí)性知識(shí),更不能處理隨用戶不同而變化的個(gè)性化知識(shí)、隨地域不同而變化的區(qū)域性知識(shí)以及隨領(lǐng)域不同而變化的專業(yè)性知識(shí)等等。 這使得網(wǎng)民仍然在期盼更完美的搜索技術(shù)的出現(xiàn)。網(wǎng)民需要搜索服務(wù)提供者研制更完美的搜索技術(shù)來(lái)滿足更快、更準(zhǔn)、更方便的查詢需要。是的,這些正是搜索技術(shù)發(fā)展的最終目標(biāo):跟上Internet的發(fā)展速度,為網(wǎng)民提供更準(zhǔn)確的查詢結(jié)果。下面將就目前幾大新興技術(shù)在搜索技術(shù)中的應(yīng)用做展望,以設(shè)想更具完美的搜索技術(shù)的未來(lái)。 自然語(yǔ)言理解技術(shù) 隨著社會(huì)的日益信息化,人們?cè)絹?lái)越強(qiáng)烈地希望用自然語(yǔ)言同計(jì)算機(jī)交流。自然語(yǔ)言理解是計(jì)算機(jī)科學(xué)中一個(gè)引人入勝、富有挑戰(zhàn)性的課題。從計(jì)算機(jī)科學(xué),特別是從人工智能的觀點(diǎn)看,自然語(yǔ)言理解的任務(wù)是建立一種計(jì)算機(jī)模型,這種計(jì)算機(jī)模型能夠給出像人那樣理解、分析并回答自然語(yǔ)言(即人們?nèi)粘J褂玫母鞣N通俗語(yǔ)言)的結(jié)果。 現(xiàn)在計(jì)算機(jī)的智能還遠(yuǎn)遠(yuǎn)沒(méi)有達(dá)到能夠像人一樣理解自然語(yǔ)言的水平,而且在可預(yù)見的將來(lái)也難以達(dá)到這樣的水平。因此,關(guān)于計(jì)算機(jī)對(duì)自然語(yǔ)言的理解一般是從實(shí)用的角度進(jìn)行評(píng)判的。如果計(jì)算機(jī)實(shí)現(xiàn)了人機(jī)會(huì)話、機(jī)器翻譯或自動(dòng)文摘等語(yǔ)言信息處理功能,則認(rèn)為計(jì)算機(jī)具備了自然語(yǔ)言的理解能力。 以自然語(yǔ)言理解技術(shù)為基礎(chǔ)的新一代搜索引擎,我們稱之為智能搜索引擎。由于它將信息檢索從目前基于關(guān)鍵詞層面提高到基于知識(shí)(或概念)層面,對(duì)知識(shí)有一定的理解與處理能力,能夠?qū)崿F(xiàn)分詞技術(shù)、同義詞技術(shù)、概念搜索、短語(yǔ)識(shí)別以及機(jī)器翻譯技術(shù)等。因而這種搜索引擎具有信息服務(wù)的智能化、人性化特征,允許網(wǎng)民采用自然語(yǔ)言進(jìn)行信息的檢索,為他們提供更方便、更確切的搜索服務(wù)。 與傳統(tǒng)的目錄查詢、關(guān)鍵詞查詢模式相比,自然語(yǔ)言查詢的優(yōu)勢(shì)體現(xiàn)在:一是使網(wǎng)絡(luò)交流更加人性化;二是使信息查詢變得更加方便、快速和準(zhǔn)確?,F(xiàn)在,已經(jīng)有越來(lái)越多的搜索引擎宣布支持自然語(yǔ)言搜索特性,但是要建立真正的基于自然語(yǔ)言理解的智能查詢系統(tǒng),還存在很多的技術(shù)難點(diǎn)。如:如何理解自然語(yǔ)言及所代表的實(shí)際含義;如何根據(jù)問(wèn)題找出用戶實(shí)際想要的答案;如何建立大規(guī)模知識(shí)庫(kù)等。 目前,智能搜索引擎的研發(fā)主要有兩大方向,其一是基于機(jī)器翻譯技術(shù),比如Google;其二是基于語(yǔ)義理解技術(shù),國(guó)內(nèi)有尤里卡、問(wèn)一問(wèn),國(guó)外的主要代表是Ask Jeeves。 機(jī)器翻譯(Machine Translation,MT)又稱機(jī)譯,它是利用計(jì)算機(jī)把一種自然語(yǔ)言轉(zhuǎn)變成另一種自然語(yǔ)言的過(guò)程。智能搜索引擎在這一領(lǐng)域的研究將使得用戶可以使用母語(yǔ)搜索非母語(yǔ)的網(wǎng)頁(yè),并以母語(yǔ)瀏覽搜索結(jié)果。 語(yǔ)義理解通過(guò)將語(yǔ)言學(xué)的研究成果和搜索引擎技術(shù)結(jié)合在一起,實(shí)現(xiàn)了搜索引擎對(duì)搜索詞在語(yǔ)義層次上的理解,為用戶提供最確切的搜索服務(wù)。 P2P對(duì)等網(wǎng)絡(luò) 引發(fā)P2P革命的當(dāng)推美國(guó)的Napster,2000年7月份的一場(chǎng)官司將Napster的聲望推到頂點(diǎn),用戶數(shù)也在短短一年內(nèi)激增至4000萬(wàn),成為Internet史上一大奇跡。P2P是Peer-to-Peer的縮寫,意為對(duì)等網(wǎng)絡(luò)。其在加強(qiáng)網(wǎng)絡(luò)上人的交流、文件交換、分布計(jì)算等方面大有前途。P2P被認(rèn)為是Internet實(shí)現(xiàn)下一次飛躍的關(guān)鍵,但它將如何浮出水面仍然是個(gè)謎。長(zhǎng)久以來(lái),人們習(xí)慣的Internet是以服務(wù)器為中心,人們向服務(wù)器發(fā)送請(qǐng)求,然后瀏覽服務(wù)器回應(yīng)的信息。 P2P所包含的技術(shù)就是使聯(lián)網(wǎng)電腦能夠進(jìn)行數(shù)據(jù)交換,但數(shù)據(jù)是存儲(chǔ)在每臺(tái)電腦里,而不是存儲(chǔ)在既昂貴又容易受到攻擊的服務(wù)器里。網(wǎng)絡(luò)成員可以在網(wǎng)絡(luò)數(shù)據(jù)庫(kù)里自由搜索、更新、回答和傳送數(shù)據(jù)。所有人都共享了他們認(rèn)為最有價(jià)值的東西,這將使Internet上信息的價(jià)值得到極大的提升。 P2P引導(dǎo)網(wǎng)絡(luò)計(jì)算模式從集中式向分布式轉(zhuǎn)移,也就是說(shuō)網(wǎng)絡(luò)應(yīng)用的核心從中央服務(wù)器向網(wǎng)絡(luò)邊緣的終端設(shè)備擴(kuò)散:服務(wù)器到服務(wù)器、服務(wù)器到PC機(jī)、PC機(jī)到PC機(jī)、PC機(jī)到WAP手機(jī)……所有網(wǎng)絡(luò)節(jié)點(diǎn)上的設(shè)備都可以建立P2P對(duì)話。 P2P給Internet的分布、共享精神帶來(lái)了無(wú)限的遐想,有觀點(diǎn)認(rèn)為至少有100種應(yīng)用能被開發(fā)出來(lái),但從目前的應(yīng)用來(lái)看,P2P的威力還主要體現(xiàn)在大范圍的共享、搜索的優(yōu)勢(shì)上。P2P技術(shù)的一個(gè)優(yōu)勢(shì)是開發(fā)出強(qiáng)大的搜索工具。P2P技術(shù)使用戶能夠深度搜索文檔,而且這種搜索無(wú)需通過(guò)Web服務(wù)器,也可以不受信息文檔格式和宿主設(shè)備的限制,可達(dá)到傳統(tǒng)目錄式搜索引擎(只能搜索到20%~30%的網(wǎng)絡(luò)資源)無(wú)可比擬的深度(理論上將包括網(wǎng)絡(luò)上所有開放的信息資源)。以P2P技術(shù)發(fā)展先鋒Gnutella進(jìn)行的搜索為例:一臺(tái)PC上的Gnutella軟件可將用戶的搜索請(qǐng)求同時(shí)發(fā)給網(wǎng)絡(luò)上另外10臺(tái)PC,如果搜索請(qǐng)求未得到滿足,這10臺(tái)PC中的每一臺(tái)都會(huì)把該搜索請(qǐng)求轉(zhuǎn)發(fā)給另外10臺(tái)PC,這樣,搜索范圍將在幾秒鐘內(nèi)以幾何級(jí)數(shù)增長(zhǎng),幾分鐘內(nèi)就可搜遍幾百萬(wàn)臺(tái)PC上的信息資源。 基于P2P對(duì)等搜索理念的搜索技術(shù)會(huì)為Internet的信息搜索提供全新的解決之道。它使人們?cè)贗nternet上的共享行為被提到一個(gè)更高的層次,使人們以更主動(dòng)深刻的方式參與到網(wǎng)絡(luò)中去。 XML可擴(kuò)展標(biāo)記語(yǔ)言 XML將使Web的搜索非常方便。XML可擴(kuò)展標(biāo)記語(yǔ)言是Web數(shù)據(jù)使用的通用語(yǔ)言,具有結(jié)構(gòu)化、規(guī)范性、可擴(kuò)展性及簡(jiǎn)潔的特點(diǎn)。XML 能讓開發(fā)人員將來(lái)自各種應(yīng)用程序的結(jié)構(gòu)化數(shù)據(jù)傳送給桌面以在本地計(jì)算和表示。XML 允許為特定應(yīng)用程序創(chuàng)建獨(dú)特的數(shù)據(jù)格式,它還是結(jié)構(gòu)化數(shù)據(jù)從服務(wù)器到服務(wù)器傳輸?shù)睦硐敫袷?。XML是在超級(jí)分布式系統(tǒng)之間實(shí)現(xiàn)多數(shù)據(jù)集傳輸?shù)囊环N手段。它同時(shí)可以使開發(fā)人員以更具價(jià)值的新型方式聚集和組合各種來(lái)源的數(shù)據(jù)。XML將成為Internet上最重要的基礎(chǔ)性語(yǔ)言。 XML通過(guò)DTD定義了文檔的詞法、語(yǔ)法和部分語(yǔ)義,XML規(guī)定了文檔的表現(xiàn)形式,而XLink和XPointer定義了文檔之間的關(guān)系,從而為基于Web的各種應(yīng)用提供了一個(gè)描述數(shù)據(jù)和交換數(shù)據(jù)的有效手段。如果說(shuō),HTML提供了顯示全球數(shù)據(jù)的通用方法,那么XML進(jìn)一步提供了處理全球數(shù)據(jù)的通用方法。XML繼承了SGML的強(qiáng)大功能,又充分采取了HTML的“易用”原則。它實(shí)現(xiàn)了國(guó)際性的媒體無(wú)關(guān)的電子出版,使工業(yè)界能夠定義平臺(tái)無(wú)關(guān)的數(shù)據(jù)交換協(xié)議,特別是電子商務(wù)中的數(shù)據(jù)交換協(xié)議。資源標(biāo)注、編目和描述是信息查找的基礎(chǔ),結(jié)構(gòu)化的資源(XML)和資源的描述框架(RDF)互相配合,將大大提高信息查找效率。XML簡(jiǎn)化元數(shù)據(jù)的提取工作,從而協(xié)助人們尋找信息,并協(xié)助信息生產(chǎn)者和信息消費(fèi)者的相互發(fā)現(xiàn)。如果說(shuō)在網(wǎng)絡(luò)的支持下,HTML語(yǔ)言解決了在異構(gòu)平臺(tái)間傳送數(shù)據(jù)和文檔,那么,基于XML的VRML和SMIL解決了在異構(gòu)平臺(tái)間傳送感受的可能性問(wèn)題。使用XML,人們可以利用設(shè)備的智能去訪問(wèn)不同的網(wǎng)站,并對(duì)信息進(jìn)行集中。XML使我們邁向?qū)⒖刂菩畔⒌臋?quán)利交給那些需要信息的人們。由于所有文件都以XML格式存在,所有的用戶都可以方便地查找和使用其中的信息,任何規(guī)模的文化機(jī)構(gòu)都可以使用相同的工具與資源。內(nèi)容供應(yīng)者、合作伙伴和信息內(nèi)容消費(fèi)者可以高效地溝通和共享信息,這樣就創(chuàng)造出了一種全新的協(xié)同工作模式。 由于給網(wǎng)民提供更完美的搜索結(jié)果不僅僅需要新興的技術(shù)支持,更涉及搜索技術(shù)的發(fā)展方向問(wèn)題。下面筆者就搜索引擎的發(fā)展趨勢(shì)談幾點(diǎn)個(gè)人見解。 更方便易用的搜索 搜索過(guò)程的方便易用,需要搜索服務(wù)提供更好的人機(jī)交互界面技術(shù)和關(guān)聯(lián)式的綜合搜索結(jié)果。 1. 人機(jī)交互界面技術(shù) 人機(jī)界面技術(shù)的不同往往使得搜索引擎表現(xiàn)出不同的特色。當(dāng)前搜索引擎涉及的人機(jī)界面技術(shù)主要有四類:搜索請(qǐng)求提交技術(shù)、搜索結(jié)果表現(xiàn)技術(shù)、搜索向?qū)Ъ夹g(shù)、搜索行為分析技術(shù)。 搜索請(qǐng)求提交技術(shù)中有幾個(gè)很有用的技術(shù),包括多語(yǔ)言查詢技術(shù)、編碼轉(zhuǎn)換技術(shù)、模糊語(yǔ)義查詢、精確語(yǔ)義查詢以及采用自然語(yǔ)言的搜索請(qǐng)求提交界面。 搜索結(jié)果表現(xiàn)技術(shù)包括搜索結(jié)果的準(zhǔn)確度及相關(guān)度、搜索結(jié)果的母語(yǔ)評(píng)價(jià)等。 搜索向?qū)Ъ夹g(shù)則純粹是網(wǎng)站設(shè)計(jì)上的界面技術(shù)。它通過(guò)具有親和力、易用的界面,即時(shí)的幫助來(lái)方便網(wǎng)民的搜索。 搜索行為分析技術(shù)的核心是跟蹤、分析用戶的搜索行為,充分利用這些信息來(lái)提高用戶的搜索效率。搜索行為分析技術(shù)提高搜索效率的途徑主要有兩種:群體行為分析和個(gè)性化搜索。 2. 關(guān)聯(lián)式的綜合搜索 以往的搜索經(jīng)驗(yàn)大都是在甲網(wǎng)站找圖片,到乙網(wǎng)站找新聞,到丙網(wǎng)站找股票資訊。這種方式十分麻煩而浪費(fèi)時(shí)間。那為何不考慮將這些圖片、新聞、股票等等各種有關(guān)聯(lián)的信息整合在同一界面,讓網(wǎng)民一次查詢,全部滿足呢?所謂關(guān)聯(lián)式綜合搜索就是這樣一種一站式的搜索服務(wù),它使得網(wǎng)民在搜索時(shí)只需輸入一次查詢目標(biāo),即可在同一界面得到各種有關(guān)聯(lián)的查詢結(jié)果。這項(xiàng)服務(wù)的關(guān)鍵在于有一架構(gòu)建在XML基礎(chǔ)上的整合資訊平臺(tái)。 更精確的搜索 搜索引擎技術(shù)本身一個(gè)最重要的發(fā)展方向是提供更精確的搜索。要想大幅度地提高搜索引擎的效率和搜索結(jié)果準(zhǔn)確度,應(yīng)考慮這樣幾個(gè)方向:智能化搜索、個(gè)性化搜索、結(jié)構(gòu)化搜索、垂直化搜索、本土化搜索等。 1. 智能化搜索 準(zhǔn)確的搜索應(yīng)建立在對(duì)收集信息和搜索請(qǐng)求的理解之上,也就是說(shuō),必須處理語(yǔ)義信息。顯然,基于自然語(yǔ)言理解技術(shù)的搜索引擎,由于可以同用戶使用自然語(yǔ)言交談,并深刻理解用戶的搜索請(qǐng)求,因此查詢的結(jié)果也更加準(zhǔn)確。 2. 個(gè)性化搜索 提高搜索精確度的另一個(gè)途徑是提供個(gè)性化的搜索,也就是將搜索建立在個(gè)性化的搜索環(huán)境之下,通過(guò)對(duì)用戶的不斷了解、分析,使得個(gè)性化搜索更符合每個(gè)用戶的需求,而不僅僅是準(zhǔn)確。 3. 結(jié)構(gòu)化搜索 所謂結(jié)構(gòu)化搜索,是指充分利用XML等技術(shù)使信息結(jié)構(gòu)化,同時(shí)使查詢結(jié)構(gòu)化,從而使搜索的準(zhǔn)確度大大提高。 4. 垂直化專業(yè)領(lǐng)域搜索 由于社會(huì)分工的加大,網(wǎng)民從事的職業(yè)有很大不同,不同網(wǎng)民對(duì)信息搜索也往往有自己的專業(yè)要求。比如信息技術(shù)類從業(yè)人員最希望有面向信息技術(shù)的專業(yè)搜索引擎,金融證券從業(yè)人員則希望使用金融證券類的搜索引擎。從調(diào)查結(jié)果看:一半網(wǎng)民認(rèn)為目前搜索引擎死鏈接太多,四成以上的網(wǎng)民認(rèn)為目前的搜索結(jié)果中不相關(guān)信息太多,而專業(yè)垂直引擎可解決以上問(wèn)題,它只針對(duì)某領(lǐng)域,可保證此領(lǐng)域信息的收錄齊全與更新非常及時(shí)。另外,六成左右的網(wǎng)民認(rèn)為面向某領(lǐng)域的搜索引擎非常或比較重要。 垂直類搜索引擎面向某一特定專業(yè)領(lǐng)域,專注于自己的特長(zhǎng)和核心技術(shù),保證了對(duì)該領(lǐng)域信息的完全收錄與及時(shí)更新。因此,基于專業(yè)領(lǐng)域的“垂直搜索引擎”開始成為搜索引擎發(fā)展的一個(gè)新趨勢(shì)。 專業(yè)化的搜索引擎在提供專業(yè)信息方面有著大型綜合引擎無(wú)法比擬的優(yōu)勢(shì)。專業(yè)搜索引擎和專門信息搜索引擎所采用的基本技術(shù)同綜合引擎一樣,而且基本上都是成熟的技術(shù)(某些專門信息搜索引擎可能還需要一些特殊技術(shù)),它們的發(fā)展沒(méi)有技術(shù)障礙,同時(shí)正符合了Internet發(fā)展的一個(gè)趨勢(shì):Internet將更專業(yè)化、分工更細(xì)。 5. 本土化的搜索 世界上許多著名的搜索引擎都在美國(guó),他們以英語(yǔ)為基礎(chǔ),完全按他們的思維方式和觀點(diǎn)搜集和檢索資料,這對(duì)于全球不同國(guó)家的用戶來(lái)說(shuō)顯然是不適合的。各國(guó)的文化傳統(tǒng)、思維方式和生活習(xí)慣不同,在對(duì)網(wǎng)站內(nèi)容的搜索要求上也就存在差異。搜索結(jié)果要符合當(dāng)?shù)赜脩舻囊?,搜索引擎就必須本土化? 以上我們大致了解了一些新興技術(shù)在搜索技術(shù)中的應(yīng)用以及搜索引擎的發(fā)展趨勢(shì)。隨著搜索技術(shù)的不斷完善與發(fā)展,我們有理由相信將來(lái)的搜索引擎一定會(huì)朝向更方便易用的人機(jī)界面,更準(zhǔn)確的搜索結(jié)果方向發(fā)展。 |
聯(lián)系客服