在线不卡一区二区,一级毛片**不卡免费播,日本不卡在线视频

傳統(tǒng)搜索引擎

　　1．搜索引擎的分類

　　互聯(lián)網(wǎng)的迅速發(fā)展和廣泛普及導(dǎo)致網(wǎng)上信息爆炸性增長(zhǎng)。目前存在數(shù)量眾多的搜索引擎，根據(jù)它們所基于的技術(shù)原理，可以把它們分成三大主要類型:基于機(jī)器人Robot的搜索引擎、目錄式Directory（也叫做Catalog）搜索引擎和Meta元搜索引擎。

　　基于機(jī)器人Robot的搜索引擎　這種搜索引擎的特點(diǎn)是利用一個(gè)稱為Robot（也叫做Spider、Web Crawler或Web Wanderer）的程序以某種策略自動(dòng)地在互聯(lián)網(wǎng)中收集和發(fā)現(xiàn)信息，由索引器為收集到的信息建立索引，由檢索器根據(jù)用戶的查詢輸入檢索索引庫(kù)，并將查詢結(jié)果返回給用戶。服務(wù)方式是面向網(wǎng)頁(yè)的全文檢索服務(wù)。

　　基于Robot的搜索引擎一般要定期訪問(wèn)大多數(shù)以前收集的網(wǎng)頁(yè)，刷新索引，以反映出網(wǎng)頁(yè)的更新情況，去除一些死鏈接，網(wǎng)頁(yè)的部分內(nèi)容和變化情況將會(huì)反映到用戶查詢的結(jié)果中，這是基于Robot的搜索引擎的一個(gè)重要特征。

　　該類搜索引擎的優(yōu)點(diǎn)是信息量大、更新及時(shí)、毋需人工干預(yù)。缺點(diǎn)是返回信息過(guò)多，有很多無(wú)關(guān)信息，用戶必須從結(jié)果中進(jìn)行篩選。這類搜索引擎的代表是：AltaVista、Northern Light、Excite、Infoseek、Inktomi、FAST、Lycos、Google；國(guó)內(nèi)代表為：百度、悠游、OpenFind等。

　　目錄式Directory搜索引擎　這種搜索引擎以人工方式或半自動(dòng)方式收集信息。目錄式搜索引擎的數(shù)據(jù)庫(kù)是依靠專職編輯或志愿人員建立起來(lái)的，這些編輯人員在訪問(wèn)了某個(gè)Web站點(diǎn)后撰寫一段對(duì)該站點(diǎn)的描述，并根據(jù)站點(diǎn)的內(nèi)容和性質(zhì)將其歸為一個(gè)預(yù)先分好的類別，把站點(diǎn)的URL和描述放在這個(gè)類別中。信息大多面向網(wǎng)站，提供目錄瀏覽服務(wù)和直接檢索服務(wù)。很多目錄也接受用戶提交的網(wǎng)站和描述，當(dāng)目錄的編輯人員認(rèn)可該網(wǎng)站及描述后，就會(huì)將之添加到合適的類別中。

　　目錄的用戶界面基本上都是分級(jí)結(jié)構(gòu)，首頁(yè)提供了最基本的幾個(gè)大類的入口，用戶可以一級(jí)一級(jí)地向下訪問(wèn)，直至找到自己感興趣的類別。另外，用戶也可以利用目錄提供的搜索功能直接查找一個(gè)關(guān)鍵詞，該類搜索引擎因?yàn)榧尤肓巳说闹悄?，因此用戶從目錄搜索得到的結(jié)果往往比從基于Robot的搜索引擎得到的結(jié)果更具參考價(jià)值，缺點(diǎn)是需要人工介入、維護(hù)量大、信息量少、信息更新不及時(shí)。這類搜索引擎的代表是：Yahoo、AOL、Lycos、Open Directory等。

　　Meta元搜索引擎　元搜索引擎（Metasearch Engine），被稱為搜索引擎之上的搜索引擎。用戶只需遞交一次檢索請(qǐng)求，由元搜索引擎負(fù)責(zé)轉(zhuǎn)換處理后提交給多個(gè)預(yù)先選定的獨(dú)立搜索引擎，并將所有查詢結(jié)果集中起來(lái)以整體統(tǒng)一的格式呈現(xiàn)到用戶面前。由于采用了一系列的優(yōu)化運(yùn)行機(jī)制，它能夠在盡可能短的時(shí)間內(nèi)提供相對(duì)全面、準(zhǔn)確的信息，而且即使不能完全滿足用戶需求，仍可以作為相對(duì)可靠的參考源進(jìn)行擴(kuò)展搜索，因此成為備受推崇的檢索首選入口。

　　一個(gè)真正的元搜索引擎由三部分組成，即：檢索請(qǐng)求提交機(jī)制、檢索接口代理機(jī)制、檢索結(jié)果顯示機(jī)制?！罢?qǐng)求提交”負(fù)責(zé)實(shí)現(xiàn)用戶“個(gè)性化”的檢索設(shè)置要求，包括調(diào)用哪些搜索引擎、檢索時(shí)間限制、結(jié)果數(shù)量限制等?！敖涌诖怼必?fù)責(zé)將用戶的檢索請(qǐng)求“翻譯”成滿足不同搜索引擎“本地化”要求的格式?！敖Y(jié)果顯示”負(fù)責(zé)所有源搜索引擎檢索結(jié)果的去重、合并、輸出處理等。這類搜索引擎的代表是：ByteSearch、Mamma、MetaCrawler、Profusion等。

　　2．傳統(tǒng)搜索技術(shù)的局限

　　信息丟失　一般來(lái)說(shuō)，目錄式的搜索引擎由于目錄只在對(duì)站點(diǎn)的描述中進(jìn)行搜索，因此站點(diǎn)本身的動(dòng)態(tài)變化不會(huì)反映到搜索結(jié)果中來(lái)，對(duì)網(wǎng)站的描述也十分簡(jiǎn)略，其描述能力不能深入網(wǎng)站的內(nèi)部細(xì)節(jié)，因此用戶不能查詢網(wǎng)站內(nèi)部的重要信息，造成了信息丟失。

　　返回信息太多　基于機(jī)器人的搜索引擎由于應(yīng)用了全文檢索技術(shù)，能夠解決對(duì)網(wǎng)頁(yè)細(xì)節(jié)的檢索問(wèn)題。從理論上說(shuō)，只要網(wǎng)頁(yè)上出現(xiàn)了某個(gè)關(guān)鍵詞，就能夠使用全文檢索用關(guān)鍵詞匹配把該網(wǎng)頁(yè)查出來(lái)，但是這又導(dǎo)致了它的缺陷——返回的信息太多。

　　信息無(wú)關(guān)　返回信息過(guò)多只是全文檢索給人直觀感覺到的問(wèn)題。除此之外，它還有兩個(gè)不很直觀的深層次問(wèn)題也給信息檢索帶來(lái)了不少困難。

　　很多情況下，用戶很難簡(jiǎn)單地用關(guān)鍵詞或關(guān)鍵詞串來(lái)忠實(shí)地表達(dá)他所真正需要檢索的內(nèi)容，表達(dá)困難導(dǎo)致檢索困難。

　　人類的自然語(yǔ)言中，隨著時(shí)間、地域或領(lǐng)域的改變，同一概念可以用不同的語(yǔ)言表現(xiàn)形式來(lái)表達(dá)。因此，對(duì)同一概念的檢索，不同的用戶可能使用不同的關(guān)鍵詞來(lái)查詢。

　　這個(gè)兩個(gè)問(wèn)題造成的直接結(jié)果就是返回大量的無(wú)關(guān)信息。比如，“計(jì)算機(jī)”和“電腦”是同一類產(chǎn)品，但是搜索結(jié)果往往大不相同。

　　造成上述信息檢索困難的原因的實(shí)質(zhì)在于傳統(tǒng)的搜索引擎對(duì)要檢索的信息僅僅采用機(jī)械的關(guān)鍵詞匹配來(lái)實(shí)現(xiàn)，缺乏知識(shí)處理能力和理解能力，也就是說(shuō)搜索引擎無(wú)法處理在用戶看來(lái)是非常普通的常識(shí)性知識(shí)，更不能處理隨用戶不同而變化的個(gè)性化知識(shí)、隨地域不同而變化的區(qū)域性知識(shí)以及隨領(lǐng)域不同而變化的專業(yè)性知識(shí)等等。

　　因此，結(jié)合人工智能技術(shù)的智能搜索引擎把信息檢索從目前基于關(guān)鍵詞層面提高到基于知識(shí)（或概念）層面，是解決問(wèn)題的根本和關(guān)鍵。

　　智能搜索引擎

　　1．智能搜索引擎發(fā)展?fàn)顩r

　　智能搜索引擎是結(jié)合了人工智能技術(shù)的新一代搜索引擎。由于它將信息檢索從目前基于關(guān)鍵詞層面提高到基于知識(shí)（或概念）層面，對(duì)知識(shí)有一定的理解與處理能力，能夠?qū)崿F(xiàn)分詞技術(shù)、同義詞技術(shù)、概念搜索、短語(yǔ)識(shí)別以及機(jī)器翻譯技術(shù)等。智能搜索引擎具有信息服務(wù)的智能化、人性化特征，允許網(wǎng)民采用自然語(yǔ)言進(jìn)行信息的檢索，為他們提供更方便、更確切的搜索服務(wù)。這類搜索引擎的代表有：尤里卡、問(wèn)一問(wèn)、21ilink、孫悟空、悠游等；國(guó)外代表：Ask jeeves、Google等。

　　2. 智能搜索引擎的技術(shù)

　　各個(gè)智能搜索引擎技術(shù)的實(shí)現(xiàn)各不相同、各有特點(diǎn)，但從實(shí)現(xiàn)智能搜索基本思路上是相通的。下面以尤里卡搜索引擎為例，簡(jiǎn)要說(shuō)明一下技術(shù)實(shí)現(xiàn)。

　　知識(shí)庫(kù)和信息庫(kù)　知識(shí)庫(kù)是實(shí)現(xiàn)智能搜索的基礎(chǔ)和核心，知識(shí)庫(kù)就像人腦里存放的知識(shí)。人腦是人們認(rèn)知、理解世界和改造世界的基礎(chǔ)。人腦所做到的不僅僅是對(duì)信息的接受，而是對(duì)信息的判斷、提取、分析和概括之后形成自己的知識(shí)，然后保存到大腦中，成為下一次分析、概括的依據(jù)和基礎(chǔ)。這樣，人腦的知識(shí)就處在一種自增長(zhǎng)的過(guò)程。人們掌握知識(shí)的多少，決定了人們認(rèn)知、理解和改造世界的程度。知識(shí)庫(kù)的形成與增長(zhǎng)，就如同人腦知識(shí)的增長(zhǎng)，也處于一種自增長(zhǎng)自循環(huán)的狀態(tài)，知識(shí)庫(kù)的豐富程度也同樣決定著檢索能力的高低。

　　信息庫(kù)就是互聯(lián)網(wǎng)?；ヂ?lián)網(wǎng)是一個(gè)巨大的、非結(jié)構(gòu)化而且處于不停變化的信息空間。信息庫(kù)可以起到兩方面的作用。首先，信息庫(kù)是知識(shí)庫(kù)存在和發(fā)展的空間，知識(shí)庫(kù)所做的其實(shí)就是對(duì)信息庫(kù)的判斷、提取、分析和概括，所謂知識(shí)是從信息來(lái)，就是這個(gè)道理。其次，信息庫(kù)也是用戶所要檢索的內(nèi)容，智能搜索引擎所做的就是通過(guò)知識(shí)庫(kù)把用戶的問(wèn)題提高到知識(shí)（概念）的層面，然后利用這個(gè)知識(shí)（概念）檢索信息庫(kù)。

　　語(yǔ)義分析、知識(shí)管理和檢索　要做到智能搜索還必須做到知識(shí)庫(kù)和信息庫(kù)的結(jié)合。要做到兩個(gè)核心庫(kù)的有機(jī)結(jié)合要做到以下三點(diǎn)：語(yǔ)義分析、知識(shí)管理和知識(shí)檢索。

　　語(yǔ)義分析是分析用戶語(yǔ)言的具體含義。它應(yīng)該實(shí)現(xiàn)以下幾個(gè)功能：整句分詞、處理同義詞、根據(jù)知識(shí)庫(kù)分析關(guān)鍵詞明確概念和語(yǔ)義及一定程度地豐富知識(shí)庫(kù)。

　　知識(shí)管理主要實(shí)現(xiàn)知識(shí)庫(kù)的自增長(zhǎng)。前面提到，知識(shí)庫(kù)的增長(zhǎng)基礎(chǔ)是對(duì)信息庫(kù)的概括和提取，所以知識(shí)管理首先要做到對(duì)信息庫(kù)的分析和概括，然后是對(duì)知識(shí)庫(kù)的擴(kuò)充。

　　知識(shí)檢索是實(shí)現(xiàn)智能搜索的最后一環(huán)，通過(guò)前面語(yǔ)義分析結(jié)果，明確用戶用意，對(duì)信息庫(kù)進(jìn)行知識(shí)（概念）層次的檢索，在給出準(zhǔn)確答案的同時(shí)，給出用戶相關(guān)問(wèn)題，從多方位對(duì)用戶的問(wèn)題進(jìn)行回答。

　　3．智能搜索引擎的優(yōu)點(diǎn)

　　搜索結(jié)果的準(zhǔn)確性　由于采取了知識(shí)庫(kù)為基礎(chǔ)的語(yǔ)義分析，在進(jìn)行檢索過(guò)程中，采用的不是關(guān)鍵詞全文檢索，而是基于概念的檢索。比如說(shuō)當(dāng)你輸入“北京天氣怎么樣？”，傳統(tǒng)搜索引擎返回的結(jié)果連小說(shuō)都檢索出來(lái)，因?yàn)樾≌f(shuō)內(nèi)容包括“北京天氣怎么樣？”這句話。而智能搜索引擎，由于采取語(yǔ)義分析的方法，分析出北京天氣這個(gè)概念，直接給出北京的天氣情況預(yù)報(bào)。

　　搜索結(jié)果的范圍定位準(zhǔn)確　由于采用知識(shí)（概念）檢索技術(shù)，明確和縮小了搜索范圍，減少對(duì)無(wú)用信息范圍的檢索。比如上面的例子，智能搜索引擎只在天氣這個(gè)范圍進(jìn)行檢索，從而提高了檢索效率，減少了無(wú)用信息。智能搜索引擎是以搜索結(jié)果準(zhǔn)確、范圍小為特點(diǎn)的。

　　搜索結(jié)果的綜合性　由于采用了知識(shí)庫(kù)，搜索引擎將給用戶提供更全面、更綜合和更合理的知識(shí)框架。在這里，信息檢索只是信息服務(wù)的一部分。比如說(shuō)當(dāng)你輸入“在北京怎么找工作？”，給出的答案不僅僅是給出“北京地區(qū)的招聘信息”，而且還給出“北京地區(qū)的人才政策”、“求職技巧”等信息。

　　搜索結(jié)果的智能性　所謂“智能來(lái)自知識(shí)”，有綜合知識(shí)庫(kù)作為背景，信息檢索和導(dǎo)航服務(wù)將更智能。知識(shí)庫(kù)中的知識(shí)有助于解決前面提到“表達(dá)差異”問(wèn)題。例如，只要定義“計(jì)算機(jī)”、“電子計(jì)算機(jī)”、“電腦”是同義關(guān)系就可以消除用戶由于使用不同的詞表達(dá)同一概念而帶來(lái)的檢索困難。另一方面，知識(shí)庫(kù)對(duì)用戶的查詢進(jìn)行相關(guān)性聯(lián)想，提供引導(dǎo)用戶進(jìn)行下一步查詢的線索。這樣一步一步地在與用戶的交互過(guò)程中誘導(dǎo)用戶“表達(dá)”出他真正想找的東西，從而實(shí)現(xiàn)對(duì)查詢的智能導(dǎo)航。這種逐步求精的策略解決了信息檢索“忠實(shí)表達(dá)”的難題。

　　4．智能搜索引擎的發(fā)展與應(yīng)用

　　建立理論上完備的知識(shí)庫(kù)是不現(xiàn)實(shí)的。這是因?yàn)槿说闹R(shí)、特別是常識(shí)性知識(shí)具有“數(shù)量”上的浩瀚無(wú)際，在“質(zhì)量”上又有高度的不確定性和模糊性，要建立這樣一個(gè)知識(shí)網(wǎng)絡(luò)是極端困難的。

　　然而，這絲毫不會(huì)影響基于知識(shí)庫(kù)的智能搜索技術(shù)的可行性和可操作性。這是因?yàn)?，理論上完備的知識(shí)庫(kù)雖然難以實(shí)現(xiàn)，但是我們可以通過(guò)降低求解目標(biāo)的方法，針對(duì)具體的搜索引擎需求，建立相應(yīng)的知識(shí)庫(kù)（或稱概念圖），這里的知識(shí)庫(kù)是對(duì)理論上完整知識(shí)庫(kù)的一種近似，一種局部實(shí)現(xiàn)。針對(duì)某一領(lǐng)域、甚至某一站點(diǎn)所有網(wǎng)頁(yè)所反映的知識(shí)來(lái)構(gòu)造一個(gè)局部的小知識(shí)庫(kù)是相對(duì)容易實(shí)現(xiàn)的。它的知識(shí)在數(shù)量和質(zhì)量上雖然不能與理想的知識(shí)庫(kù)相比，對(duì)具體搜索任務(wù)卻是實(shí)用的。更重要的是，知識(shí)庫(kù)里的知識(shí)可以在使用中不斷改進(jìn)，數(shù)量上不斷增加，質(zhì)量上不斷提高。這是一個(gè)對(duì)知識(shí)進(jìn)行訓(xùn)練的過(guò)程，可以通過(guò)人來(lái)完成，也可以使用機(jī)器學(xué)習(xí)等手段來(lái)實(shí)現(xiàn)。

(轉(zhuǎn)帖)搜索技術(shù)發(fā)展及未來(lái)趨勢(shì)
　　
陸元婕　飛俠

　　搜索技術(shù)仍不能滿足需求
　　Internet的迅速發(fā)展和廣泛應(yīng)用導(dǎo)致了網(wǎng)上信息爆炸性地增長(zhǎng)。據(jù)權(quán)威機(jī)構(gòu)統(tǒng)計(jì)，網(wǎng)上約有數(shù)十億的網(wǎng)頁(yè)，甚至有些專家宣稱網(wǎng)頁(yè)總數(shù)已達(dá)5500億，這一數(shù)字仍然在不斷地快速增長(zhǎng)。因此，如何在龐大的Internet上獲得有價(jià)值的信息已成為網(wǎng)民日益關(guān)注的問(wèn)題。搜索技術(shù)的出現(xiàn)為網(wǎng)民從Internet上快速找到所需信息帶來(lái)了福音。搜索引擎是一種用于幫助Internet用戶查詢信息的搜索工具，它以一定的策略在Internet中搜集、發(fā)現(xiàn)信息，對(duì)信息進(jìn)行理解、提取、組織和處理，并為用戶提供檢索服務(wù)，從而起到信息導(dǎo)航的目的。
　　1993年，Internet上出現(xiàn)了最早的Web瀏覽器Mosaic，次年Netscape推出了Navigator。瀏覽器的發(fā)展促使Web得到迅速推廣，同時(shí)也推動(dòng)了搜索引擎的發(fā)展。
　　早期的搜索引擎是把Internet中資源服務(wù)器的地址收集起來(lái)，由其提供資源的類型不同而分成不同的目錄，再一層層地進(jìn)行分類。人們要找自己想要的信息可按它們的分類一層層進(jìn)入，就能最后到達(dá)目的地，找到自己想要的信息。這其實(shí)是最原始的方式，只適用于Internet信息并不多的時(shí)候。
　　隨著Internet信息按幾何式增長(zhǎng)，出現(xiàn)了最早的真正意義上的搜索引擎——Lycos，它創(chuàng)建于1994年的春天，當(dāng)時(shí)Michael Mauldin將John Leavitt的Spider程序接入到其索引程序中。隨著Yahoo!的出現(xiàn)，搜索引擎的發(fā)展也進(jìn)入了黃金時(shí)代，其性能也更加優(yōu)越。
　　搜索服務(wù)提供者在研發(fā)搜索技術(shù)方面已經(jīng)花費(fèi)了大量的時(shí)間和精力，但是網(wǎng)民對(duì)于現(xiàn)有的搜索技術(shù)是否滿意呢？
　　2001年，Roper Starch的調(diào)查指出，36%的Internet用戶一個(gè)星期花了超過(guò)2個(gè)小時(shí)時(shí)間在網(wǎng)上搜索；71%的用戶在使用搜索引擎的時(shí)候遇到過(guò)麻煩；平均搜索12分鐘以后發(fā)現(xiàn)搜索受挫；搜索受挫中46%都是因?yàn)殒溄渝e(cuò)誤；絕大部分(86%)的Internet用戶感到應(yīng)當(dāng)出現(xiàn)更有效的、準(zhǔn)確的信息搜索技術(shù)。
　　另一項(xiàng)由Keen所做的調(diào)查顯示，人們平均每天有四個(gè)問(wèn)題需要從外界獲取答案；其中31%的人使用搜索引擎尋找答案；平均每周花費(fèi)8.75個(gè)小時(shí)找尋答案；53.3%的時(shí)間花在從旁人那里獲得答案，29%的時(shí)間花在親戚朋友身上，24.3%的時(shí)間花在銷售商那里；網(wǎng)上查找答案的，半數(shù)以上都不成功；他們每周將花費(fèi)14.5美元以上，以獲取正確的信息。
　　從這些調(diào)查數(shù)據(jù)中不難看出，目前的搜索引擎仍然存在不少的局限性。傳統(tǒng)的搜索引擎技術(shù)有哪些局限性呢？主要有信息丟失、返回過(guò)多無(wú)用信息及信息無(wú)關(guān)等幾方面的局限性。造成上述信息檢索困難的原因的實(shí)質(zhì)在于傳統(tǒng)的搜索引擎對(duì)要檢索的信息僅僅采用機(jī)械的關(guān)鍵詞匹配來(lái)實(shí)現(xiàn)，缺乏知識(shí)處理能力和理解能力，也就是說(shuō)搜索引擎無(wú)法處理在用戶看來(lái)是非常普通的常識(shí)性知識(shí)，更不能處理隨用戶不同而變化的個(gè)性化知識(shí)、隨地域不同而變化的區(qū)域性知識(shí)以及隨領(lǐng)域不同而變化的專業(yè)性知識(shí)等等。
　　這使得網(wǎng)民仍然在期盼更完美的搜索技術(shù)的出現(xiàn)。網(wǎng)民需要搜索服務(wù)提供者研制更完美的搜索技術(shù)來(lái)滿足更快、更準(zhǔn)、更方便的查詢需要。是的，這些正是搜索技術(shù)發(fā)展的最終目標(biāo)：跟上Internet的發(fā)展速度，為網(wǎng)民提供更準(zhǔn)確的查詢結(jié)果。下面將就目前幾大新興技術(shù)在搜索技術(shù)中的應(yīng)用做展望，以設(shè)想更具完美的搜索技術(shù)的未來(lái)。
　　自然語(yǔ)言理解技術(shù)
　　隨著社會(huì)的日益信息化，人們?cè)絹?lái)越強(qiáng)烈地希望用自然語(yǔ)言同計(jì)算機(jī)交流。自然語(yǔ)言理解是計(jì)算機(jī)科學(xué)中一個(gè)引人入勝、富有挑戰(zhàn)性的課題。從計(jì)算機(jī)科學(xué)，特別是從人工智能的觀點(diǎn)看，自然語(yǔ)言理解的任務(wù)是建立一種計(jì)算機(jī)模型，這種計(jì)算機(jī)模型能夠給出像人那樣理解、分析并回答自然語(yǔ)言(即人們?nèi)粘Ｊ褂玫母鞣N通俗語(yǔ)言)的結(jié)果。
　　現(xiàn)在計(jì)算機(jī)的智能還遠(yuǎn)遠(yuǎn)沒(méi)有達(dá)到能夠像人一樣理解自然語(yǔ)言的水平，而且在可預(yù)見的將來(lái)也難以達(dá)到這樣的水平。因此，關(guān)于計(jì)算機(jī)對(duì)自然語(yǔ)言的理解一般是從實(shí)用的角度進(jìn)行評(píng)判的。如果計(jì)算機(jī)實(shí)現(xiàn)了人機(jī)會(huì)話、機(jī)器翻譯或自動(dòng)文摘等語(yǔ)言信息處理功能，則認(rèn)為計(jì)算機(jī)具備了自然語(yǔ)言的理解能力。
　　以自然語(yǔ)言理解技術(shù)為基礎(chǔ)的新一代搜索引擎，我們稱之為智能搜索引擎。由于它將信息檢索從目前基于關(guān)鍵詞層面提高到基于知識(shí)（或概念）層面，對(duì)知識(shí)有一定的理解與處理能力，能夠?qū)崿F(xiàn)分詞技術(shù)、同義詞技術(shù)、概念搜索、短語(yǔ)識(shí)別以及機(jī)器翻譯技術(shù)等。因而這種搜索引擎具有信息服務(wù)的智能化、人性化特征，允許網(wǎng)民采用自然語(yǔ)言進(jìn)行信息的檢索，為他們提供更方便、更確切的搜索服務(wù)。
　　與傳統(tǒng)的目錄查詢、關(guān)鍵詞查詢模式相比，自然語(yǔ)言查詢的優(yōu)勢(shì)體現(xiàn)在:一是使網(wǎng)絡(luò)交流更加人性化；二是使信息查詢變得更加方便、快速和準(zhǔn)確?，F(xiàn)在，已經(jīng)有越來(lái)越多的搜索引擎宣布支持自然語(yǔ)言搜索特性，但是要建立真正的基于自然語(yǔ)言理解的智能查詢系統(tǒng)，還存在很多的技術(shù)難點(diǎn)。如：如何理解自然語(yǔ)言及所代表的實(shí)際含義；如何根據(jù)問(wèn)題找出用戶實(shí)際想要的答案；如何建立大規(guī)模知識(shí)庫(kù)等。
　　目前，智能搜索引擎的研發(fā)主要有兩大方向，其一是基于機(jī)器翻譯技術(shù)，比如Google;其二是基于語(yǔ)義理解技術(shù)，國(guó)內(nèi)有尤里卡、問(wèn)一問(wèn)，國(guó)外的主要代表是Ask Jeeves。
　　機(jī)器翻譯(Machine Translation，MT)又稱機(jī)譯，它是利用計(jì)算機(jī)把一種自然語(yǔ)言轉(zhuǎn)變成另一種自然語(yǔ)言的過(guò)程。智能搜索引擎在這一領(lǐng)域的研究將使得用戶可以使用母語(yǔ)搜索非母語(yǔ)的網(wǎng)頁(yè)，并以母語(yǔ)瀏覽搜索結(jié)果。
　　語(yǔ)義理解通過(guò)將語(yǔ)言學(xué)的研究成果和搜索引擎技術(shù)結(jié)合在一起，實(shí)現(xiàn)了搜索引擎對(duì)搜索詞在語(yǔ)義層次上的理解，為用戶提供最確切的搜索服務(wù)。
　　P2P對(duì)等網(wǎng)絡(luò)
　　引發(fā)P2P革命的當(dāng)推美國(guó)的Napster，2000年7月份的一場(chǎng)官司將Napster的聲望推到頂點(diǎn)，用戶數(shù)也在短短一年內(nèi)激增至4000萬(wàn)，成為Internet史上一大奇跡。P2P是Peer-to-Peer的縮寫，意為對(duì)等網(wǎng)絡(luò)。其在加強(qiáng)網(wǎng)絡(luò)上人的交流、文件交換、分布計(jì)算等方面大有前途。P2P被認(rèn)為是Internet實(shí)現(xiàn)下一次飛躍的關(guān)鍵，但它將如何浮出水面仍然是個(gè)謎。長(zhǎng)久以來(lái)，人們習(xí)慣的Internet是以服務(wù)器為中心，人們向服務(wù)器發(fā)送請(qǐng)求，然后瀏覽服務(wù)器回應(yīng)的信息。
　　P2P所包含的技術(shù)就是使聯(lián)網(wǎng)電腦能夠進(jìn)行數(shù)據(jù)交換，但數(shù)據(jù)是存儲(chǔ)在每臺(tái)電腦里，而不是存儲(chǔ)在既昂貴又容易受到攻擊的服務(wù)器里。網(wǎng)絡(luò)成員可以在網(wǎng)絡(luò)數(shù)據(jù)庫(kù)里自由搜索、更新、回答和傳送數(shù)據(jù)。所有人都共享了他們認(rèn)為最有價(jià)值的東西，這將使Internet上信息的價(jià)值得到極大的提升。
　　P2P引導(dǎo)網(wǎng)絡(luò)計(jì)算模式從集中式向分布式轉(zhuǎn)移，也就是說(shuō)網(wǎng)絡(luò)應(yīng)用的核心從中央服務(wù)器向網(wǎng)絡(luò)邊緣的終端設(shè)備擴(kuò)散：服務(wù)器到服務(wù)器、服務(wù)器到PC機(jī)、PC機(jī)到PC機(jī)、PC機(jī)到WAP手機(jī)……所有網(wǎng)絡(luò)節(jié)點(diǎn)上的設(shè)備都可以建立P2P對(duì)話。
　　P2P給Internet的分布、共享精神帶來(lái)了無(wú)限的遐想，有觀點(diǎn)認(rèn)為至少有100種應(yīng)用能被開發(fā)出來(lái)，但從目前的應(yīng)用來(lái)看，P2P的威力還主要體現(xiàn)在大范圍的共享、搜索的優(yōu)勢(shì)上。P2P技術(shù)的一個(gè)優(yōu)勢(shì)是開發(fā)出強(qiáng)大的搜索工具。P2P技術(shù)使用戶能夠深度搜索文檔，而且這種搜索無(wú)需通過(guò)Web服務(wù)器，也可以不受信息文檔格式和宿主設(shè)備的限制，可達(dá)到傳統(tǒng)目錄式搜索引擎（只能搜索到20％～30％的網(wǎng)絡(luò)資源）無(wú)可比擬的深度（理論上將包括網(wǎng)絡(luò)上所有開放的信息資源）。以P2P技術(shù)發(fā)展先鋒Gnutella進(jìn)行的搜索為例：一臺(tái)PC上的Gnutella軟件可將用戶的搜索請(qǐng)求同時(shí)發(fā)給網(wǎng)絡(luò)上另外10臺(tái)PC，如果搜索請(qǐng)求未得到滿足，這10臺(tái)PC中的每一臺(tái)都會(huì)把該搜索請(qǐng)求轉(zhuǎn)發(fā)給另外10臺(tái)PC，這樣，搜索范圍將在幾秒鐘內(nèi)以幾何級(jí)數(shù)增長(zhǎng)，幾分鐘內(nèi)就可搜遍幾百萬(wàn)臺(tái)PC上的信息資源。
　　基于P2P對(duì)等搜索理念的搜索技術(shù)會(huì)為Internet的信息搜索提供全新的解決之道。它使人們?cè)贗nternet上的共享行為被提到一個(gè)更高的層次，使人們以更主動(dòng)深刻的方式參與到網(wǎng)絡(luò)中去。
　　XML可擴(kuò)展標(biāo)記語(yǔ)言
　　XML將使Web的搜索非常方便。XML可擴(kuò)展標(biāo)記語(yǔ)言是Web數(shù)據(jù)使用的通用語(yǔ)言,具有結(jié)構(gòu)化、規(guī)范性、可擴(kuò)展性及簡(jiǎn)潔的特點(diǎn)。XML 能讓開發(fā)人員將來(lái)自各種應(yīng)用程序的結(jié)構(gòu)化數(shù)據(jù)傳送給桌面以在本地計(jì)算和表示。XML 允許為特定應(yīng)用程序創(chuàng)建獨(dú)特的數(shù)據(jù)格式，它還是結(jié)構(gòu)化數(shù)據(jù)從服務(wù)器到服務(wù)器傳輸?shù)睦硐敫袷?。XML是在超級(jí)分布式系統(tǒng)之間實(shí)現(xiàn)多數(shù)據(jù)集傳輸?shù)囊环N手段。它同時(shí)可以使開發(fā)人員以更具價(jià)值的新型方式聚集和組合各種來(lái)源的數(shù)據(jù)。XML將成為Internet上最重要的基礎(chǔ)性語(yǔ)言。
　　XML通過(guò)DTD定義了文檔的詞法、語(yǔ)法和部分語(yǔ)義，XML規(guī)定了文檔的表現(xiàn)形式，而XLink和XPointer定義了文檔之間的關(guān)系，從而為基于Web的各種應(yīng)用提供了一個(gè)描述數(shù)據(jù)和交換數(shù)據(jù)的有效手段。如果說(shuō)，HTML提供了顯示全球數(shù)據(jù)的通用方法，那么XML進(jìn)一步提供了處理全球數(shù)據(jù)的通用方法。XML繼承了SGML的強(qiáng)大功能，又充分采取了HTML的“易用”原則。它實(shí)現(xiàn)了國(guó)際性的媒體無(wú)關(guān)的電子出版，使工業(yè)界能夠定義平臺(tái)無(wú)關(guān)的數(shù)據(jù)交換協(xié)議，特別是電子商務(wù)中的數(shù)據(jù)交換協(xié)議。資源標(biāo)注、編目和描述是信息查找的基礎(chǔ)，結(jié)構(gòu)化的資源（XML）和資源的描述框架（RDF）互相配合，將大大提高信息查找效率。XML簡(jiǎn)化元數(shù)據(jù)的提取工作，從而協(xié)助人們尋找信息，并協(xié)助信息生產(chǎn)者和信息消費(fèi)者的相互發(fā)現(xiàn)。如果說(shuō)在網(wǎng)絡(luò)的支持下，HTML語(yǔ)言解決了在異構(gòu)平臺(tái)間傳送數(shù)據(jù)和文檔，那么，基于XML的VRML和SMIL解決了在異構(gòu)平臺(tái)間傳送感受的可能性問(wèn)題。使用XML，人們可以利用設(shè)備的智能去訪問(wèn)不同的網(wǎng)站，并對(duì)信息進(jìn)行集中。XML使我們邁向?qū)⒖刂菩畔⒌臋?quán)利交給那些需要信息的人們。由于所有文件都以XML格式存在，所有的用戶都可以方便地查找和使用其中的信息，任何規(guī)模的文化機(jī)構(gòu)都可以使用相同的工具與資源。內(nèi)容供應(yīng)者、合作伙伴和信息內(nèi)容消費(fèi)者可以高效地溝通和共享信息，這樣就創(chuàng)造出了一種全新的協(xié)同工作模式。
　　由于給網(wǎng)民提供更完美的搜索結(jié)果不僅僅需要新興的技術(shù)支持，更涉及搜索技術(shù)的發(fā)展方向問(wèn)題。下面筆者就搜索引擎的發(fā)展趨勢(shì)談幾點(diǎn)個(gè)人見解。
　　更方便易用的搜索
　　搜索過(guò)程的方便易用，需要搜索服務(wù)提供更好的人機(jī)交互界面技術(shù)和關(guān)聯(lián)式的綜合搜索結(jié)果。
　　1．人機(jī)交互界面技術(shù)
　　人機(jī)界面技術(shù)的不同往往使得搜索引擎表現(xiàn)出不同的特色。當(dāng)前搜索引擎涉及的人機(jī)界面技術(shù)主要有四類：搜索請(qǐng)求提交技術(shù)、搜索結(jié)果表現(xiàn)技術(shù)、搜索向?qū)Ъ夹g(shù)、搜索行為分析技術(shù)。
　　搜索請(qǐng)求提交技術(shù)中有幾個(gè)很有用的技術(shù)，包括多語(yǔ)言查詢技術(shù)、編碼轉(zhuǎn)換技術(shù)、模糊語(yǔ)義查詢、精確語(yǔ)義查詢以及采用自然語(yǔ)言的搜索請(qǐng)求提交界面。
　　搜索結(jié)果表現(xiàn)技術(shù)包括搜索結(jié)果的準(zhǔn)確度及相關(guān)度、搜索結(jié)果的母語(yǔ)評(píng)價(jià)等。
　　搜索向?qū)Ъ夹g(shù)則純粹是網(wǎng)站設(shè)計(jì)上的界面技術(shù)。它通過(guò)具有親和力、易用的界面，即時(shí)的幫助來(lái)方便網(wǎng)民的搜索。
　　搜索行為分析技術(shù)的核心是跟蹤、分析用戶的搜索行為，充分利用這些信息來(lái)提高用戶的搜索效率。搜索行為分析技術(shù)提高搜索效率的途徑主要有兩種:群體行為分析和個(gè)性化搜索。
　　2．關(guān)聯(lián)式的綜合搜索
　　以往的搜索經(jīng)驗(yàn)大都是在甲網(wǎng)站找圖片，到乙網(wǎng)站找新聞，到丙網(wǎng)站找股票資訊。這種方式十分麻煩而浪費(fèi)時(shí)間。那為何不考慮將這些圖片、新聞、股票等等各種有關(guān)聯(lián)的信息整合在同一界面，讓網(wǎng)民一次查詢，全部滿足呢？所謂關(guān)聯(lián)式綜合搜索就是這樣一種一站式的搜索服務(wù)，它使得網(wǎng)民在搜索時(shí)只需輸入一次查詢目標(biāo)，即可在同一界面得到各種有關(guān)聯(lián)的查詢結(jié)果。這項(xiàng)服務(wù)的關(guān)鍵在于有一架構(gòu)建在XML基礎(chǔ)上的整合資訊平臺(tái)。
　　更精確的搜索
　　搜索引擎技術(shù)本身一個(gè)最重要的發(fā)展方向是提供更精確的搜索。要想大幅度地提高搜索引擎的效率和搜索結(jié)果準(zhǔn)確度，應(yīng)考慮這樣幾個(gè)方向：智能化搜索、個(gè)性化搜索、結(jié)構(gòu)化搜索、垂直化搜索、本土化搜索等。
　　1．智能化搜索
　　準(zhǔn)確的搜索應(yīng)建立在對(duì)收集信息和搜索請(qǐng)求的理解之上，也就是說(shuō)，必須處理語(yǔ)義信息。顯然，基于自然語(yǔ)言理解技術(shù)的搜索引擎，由于可以同用戶使用自然語(yǔ)言交談，并深刻理解用戶的搜索請(qǐng)求，因此查詢的結(jié)果也更加準(zhǔn)確。
　　2．個(gè)性化搜索
　　提高搜索精確度的另一個(gè)途徑是提供個(gè)性化的搜索，也就是將搜索建立在個(gè)性化的搜索環(huán)境之下，通過(guò)對(duì)用戶的不斷了解、分析，使得個(gè)性化搜索更符合每個(gè)用戶的需求，而不僅僅是準(zhǔn)確。
　　3．結(jié)構(gòu)化搜索
　　所謂結(jié)構(gòu)化搜索，是指充分利用XML等技術(shù)使信息結(jié)構(gòu)化，同時(shí)使查詢結(jié)構(gòu)化，從而使搜索的準(zhǔn)確度大大提高。
　　4．垂直化專業(yè)領(lǐng)域搜索
　　由于社會(huì)分工的加大，網(wǎng)民從事的職業(yè)有很大不同，不同網(wǎng)民對(duì)信息搜索也往往有自己的專業(yè)要求。比如信息技術(shù)類從業(yè)人員最希望有面向信息技術(shù)的專業(yè)搜索引擎，金融證券從業(yè)人員則希望使用金融證券類的搜索引擎。從調(diào)查結(jié)果看：一半網(wǎng)民認(rèn)為目前搜索引擎死鏈接太多，四成以上的網(wǎng)民認(rèn)為目前的搜索結(jié)果中不相關(guān)信息太多，而專業(yè)垂直引擎可解決以上問(wèn)題，它只針對(duì)某領(lǐng)域，可保證此領(lǐng)域信息的收錄齊全與更新非常及時(shí)。另外，六成左右的網(wǎng)民認(rèn)為面向某領(lǐng)域的搜索引擎非常或比較重要。
　　垂直類搜索引擎面向某一特定專業(yè)領(lǐng)域，專注于自己的特長(zhǎng)和核心技術(shù)，保證了對(duì)該領(lǐng)域信息的完全收錄與及時(shí)更新。因此，基于專業(yè)領(lǐng)域的“垂直搜索引擎”開始成為搜索引擎發(fā)展的一個(gè)新趨勢(shì)。
　　專業(yè)化的搜索引擎在提供專業(yè)信息方面有著大型綜合引擎無(wú)法比擬的優(yōu)勢(shì)。專業(yè)搜索引擎和專門信息搜索引擎所采用的基本技術(shù)同綜合引擎一樣，而且基本上都是成熟的技術(shù)（某些專門信息搜索引擎可能還需要一些特殊技術(shù)），它們的發(fā)展沒(méi)有技術(shù)障礙，同時(shí)正符合了Internet發(fā)展的一個(gè)趨勢(shì)：Internet將更專業(yè)化、分工更細(xì)。
　　5．本土化的搜索
　　世界上許多著名的搜索引擎都在美國(guó)，他們以英語(yǔ)為基礎(chǔ)，完全按他們的思維方式和觀點(diǎn)搜集和檢索資料，這對(duì)于全球不同國(guó)家的用戶來(lái)說(shuō)顯然是不適合的。各國(guó)的文化傳統(tǒng)、思維方式和生活習(xí)慣不同，在對(duì)網(wǎng)站內(nèi)容的搜索要求上也就存在差異。搜索結(jié)果要符合當(dāng)?shù)赜脩舻囊?，搜索引擎就必須本土化?
以上我們大致了解了一些新興技術(shù)在搜索技術(shù)中的應(yīng)用以及搜索引擎的發(fā)展趨勢(shì)。隨著搜索技術(shù)的不斷完善與發(fā)展，我們有理由相信將來(lái)的搜索引擎一定會(huì)朝向更方便易用的人機(jī)界面，更準(zhǔn)確的搜索結(jié)果方向發(fā)展。

本站僅提供存儲(chǔ)服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊舉報(bào)。

免费视频淫片aa毛片_日韩高清在线亚洲专区vr_日韩大片免费观看视频播放_亚洲欧美国产精品完整版