免费视频淫片aa毛片_日韩高清在线亚洲专区vr_日韩大片免费观看视频播放_亚洲欧美国产精品完整版

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
search engine

歡迎來到姿的神奇的信息檢索世界!

信息檢索(Information Retrieval)是一門研究從一定規(guī)模的文檔庫(Document Collection)中找出滿足用戶提出的需求(User Information Need)的信息的學(xué)問。和數(shù)據(jù)庫檢索不同的是,一方面,IR處理的主要數(shù)據(jù)往往是無結(jié)構(gòu)(Unstructured)或者半結(jié)構(gòu)的(Semi-structured),最典型的例子如沒有任何結(jié)構(gòu)的文章或者有tag標(biāo)記的Html文檔;另一方面, IR的檢索結(jié)果也往往是不精確的,而不象數(shù)據(jù)庫查詢那樣正確率一定是100%。比如,查關(guān)于“伊拉克戰(zhàn)爭”的文章,可能會(huì)漏掉有關(guān)“巴格達(dá)”或者其它城市的戰(zhàn)斗。因此,IR系統(tǒng)有可以相比較的性能評價(jià)指標(biāo)。
信息檢索起源于圖書情報(bào)的查詢,一開始處理的文檔數(shù)目和規(guī)模極其有限,隨著硬件處理能力的提高、大規(guī)模數(shù)據(jù)以及WWW的出現(xiàn),IR技術(shù)也日益發(fā)展。
從處理對象的格式來說,現(xiàn)代IR不僅處理單純的文本格式數(shù)據(jù)(text),而且處理包括圖像、圖形、音頻、視頻在內(nèi)的各種載體格式,甚至WEB這種復(fù)雜的載體。
從處理的技術(shù)來說, 包括自然語言處理(NLP)、人工智能、模式識別、機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、數(shù)理統(tǒng)計(jì)、運(yùn)籌學(xué)等等學(xué)科和科目在內(nèi)的技術(shù)紛紛被應(yīng)用于現(xiàn)代IR。
從應(yīng)用來說,IR技術(shù)不僅可以用于搜索引擎、信息代理等一些傳統(tǒng)的信息應(yīng)用,還可以用于話題跟蹤、內(nèi)容安全、生物信息學(xué)等度中應(yīng)用。
從概念或者名詞來說,最近一些年來出現(xiàn)了WEB挖掘(WEB Mining)、知識挖掘(Knowledge Mining)、知識發(fā)現(xiàn)(Knowledge Discovery)、內(nèi)容管理(Content Management)、內(nèi)容計(jì)算(Content Computing)等等新名詞、新學(xué)科,有些其實(shí)就是IR,有些可能學(xué)科淵源或者處理內(nèi)容有所不同,但是IR技術(shù)是這些名詞的主要內(nèi)容,或者說這些都是傳統(tǒng)IR的拓展,是現(xiàn)代IR的內(nèi)容??梢哉f,現(xiàn)代IR的發(fā)展可以說是百花齊放、絢麗多彩,引無數(shù)英雄盡折腰。
WEB的出現(xiàn)大大地促進(jìn)了IR技術(shù)的發(fā)展。WEB上有異常豐富但又充滿垃圾的信息資源,其中絕大部分有用的信息還沒有發(fā)掘出來。這是因?yàn)槟壳斑€沒有特別好的信息處理和檢索工具。人們常常抱怨搜索引擎表現(xiàn)太差,可又沒辦法,只能用它。這一領(lǐng)域的開發(fā)仍然處于初級階段。
傳統(tǒng)的數(shù)據(jù)庫是靜態(tài)的,結(jié)構(gòu)化的,有中央嚴(yán)格組織的。而Web是自發(fā)形成和發(fā)展的,Web上的頁面是動(dòng)態(tài)的,半結(jié)構(gòu)化的,通過超鏈接彼此纏繞。因此對Web的查詢和對數(shù)據(jù)庫的查詢完全不同。
據(jù)說WEB上每天要新增大約一百萬個(gè)網(wǎng)頁, 目前的網(wǎng)頁數(shù)目達(dá)到上百億。這給信息組織和檢索技術(shù)提出了十分嚴(yán)峻的挑戰(zhàn)。對如此海量的數(shù)據(jù)幾秒鐘內(nèi)就要完成快而準(zhǔn)的檢索,傳統(tǒng)的檢索技術(shù)顯得力不從心。
為此,人們提出各種各樣的辦法:或?qū)z索算法、數(shù)據(jù)結(jié)構(gòu)加以改進(jìn);或在應(yīng)用時(shí),縮小查詢范圍局限于某一個(gè)領(lǐng)域,某一個(gè)站點(diǎn);或采用一定人工參與;還有在用戶查詢界面上,誘導(dǎo)用戶與機(jī)器多次交互,或采用圖形界面;或?qū)τ脩艚o出的查詢悄悄做一下變換或修改。
WEB上的大部分網(wǎng)頁都是有一定格式的(如HTML),有豐富的標(biāo)記。比如TITLE信 息、字體著重信息、大小信息,以及META信息等等或許都暗示了些什么?
最富有革命性的想法是WEB的鏈接分析。人們意識到WEB上異常豐富的超鏈接是非常寶貴的資源,它在一定程度上反映了頁面的意義。
總而言之,八仙過海,各顯神通。見仁見智,任君評說。
今天的Internet還處于幼年時(shí)期,它一直在進(jìn)化。很難想象它會(huì)發(fā)展成什么樣子,或許那時(shí)我們對網(wǎng)絡(luò)搜索的基本觀念已經(jīng)發(fā)生了根本變化。
我們這個(gè)站點(diǎn)試圖收集國內(nèi)外IR領(lǐng)域的重要資料,希望跟蹤這方面最先進(jìn)的成果,也希望能夠吸引更多的仁人志士加入到IR的行列中來,我們誠懇歡迎您的積極參與。

如果您有什么想法或者遇到這方面有價(jià)值的文章,請和我們聯(lián)系。謝謝!

梁焰 王海波 寫于2001年 王斌于2003年5月做了部分修改
本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊舉報(bào)。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
有關(guān)自建大量信息檢索系統(tǒng)的幾點(diǎn)難題
信息化能力建設(shè)試題及答案
2011年3月《文獻(xiàn)信息檢索與利用》考試試題
全文信息檢索介紹及算法分析
淺讀檢索--《“位置算符”在專利信息檢索中的應(yīng)用》
搜索引擎發(fā)展綜述_eric的空間
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服