作者:迷宗腿 提交日期:2005-8-10 10:29:00 |
|
最近一直在看有關(guān)這方面的文章,在這里介紹一下,并提出自己的幾個疑問,請路過的高手給與指點,不勝感激!
現(xiàn)在已經(jīng)步入信息高速時代,可是要獲取自己想要的資源,通過傳統(tǒng)的搜索引擎已經(jīng)很難辦到,如何快速提供具有個性化的信息,已經(jīng)成為下一代搜索引擎研究的焦點,在這里我們把人工智能中Agent(代理)的概念與搜索引擎結(jié)合來提供具有個性化信息。
1、引言:現(xiàn)有傳統(tǒng)搜索引擎的不足:(1)單一的搜索引擎不能覆蓋整個Internet資源(2)搜索引擎沒有進(jìn)行綜合處理,用戶只能從大量的反饋信息中提取自己的所需信息(3)現(xiàn)有的搜索引擎使用不同的索引技術(shù)、信息和關(guān)鍵字查詢語法技術(shù),使得他們各自搜索的信息資源在很大程度有相當(dāng)大的差異,同時給用戶查詢帶來很大的不便。(4)現(xiàn)在搜索引擎不能針對用戶滿足用戶個性化的要求。
問題的分析及相應(yīng)的解決方法:上述問題的產(chǎn)生主要是由于傳統(tǒng)搜索引擎本身發(fā)展的局限性而帶來的,它的局限性限制了資源的更有效的獲取。針對以上問題,可以了解到要從 internet上獲取有價值的個性化的信息,提出了一個基于Agent的元搜索引擎。所謂元搜索引擎(集成搜索引擎)是將現(xiàn)有的多個搜索引擎看成一個整體,為用戶提供一個統(tǒng)一的查詢界面,用戶的查詢請求由元搜索引擎根據(jù)知識庫中的信息轉(zhuǎn)換為多個成員搜索引擎所能識別的格式,然后按照成員搜索引擎的調(diào)度算法,把規(guī)范的查詢分送到成員搜索引擎,由這些搜索引擎完成實際的信息檢索操作,最后元搜索引擎再以一定的格式返回給用戶。對于元搜索引擎來說,不象傳統(tǒng)的搜索引擎那樣有獨立的網(wǎng)源采集標(biāo)引機(jī)制和相應(yīng)的數(shù)據(jù)庫,有局部數(shù)據(jù)模式和自己的檢索指令。元搜索引擎沒有自己獨立的數(shù)據(jù)庫和索引機(jī)制,而是在其它搜索引擎的大型數(shù)據(jù)庫上實現(xiàn)其檢索;它提供給用戶一個全局外部模式,接受用戶的輸入請求;在存儲設(shè)備上比傳統(tǒng)的搜索引擎要小得多。況且,元搜索引擎可支持多個成員搜索引擎的檢索語法,方便了用戶的使用,同時,信息的查全率和查準(zhǔn)率都將大大提高。再者,由于該模型基于Agent技術(shù),可以利用Agent的自治性和Agent之間的協(xié)作來完成元搜索引擎上用戶的興趣學(xué)習(xí)、信息搜索、結(jié)果處理等工作。因此,面對現(xiàn)有傳統(tǒng)搜索引擎的不足,解決的方案就是采用基于Agent技術(shù)的元搜索引擎技術(shù)。
2、相關(guān)技術(shù)介紹:
1、 Agent技術(shù)介紹
Agent是一個應(yīng)用范圍極廣的術(shù)語,一般被用來指具有感知能力、問題求解能力及與外界進(jìn)行通訊能力的一個實體。它的定義如下:Agent 是一定環(huán)境下的計算機(jī)系統(tǒng),它能夠?qū)λ诘沫h(huán)境進(jìn)行靈活的自治動作,以滿足其設(shè)計的目標(biāo),。一般說來 Agent 的基本必備特性,如下:
自治(主)性:Agent能自行控制其狀態(tài)和行為,能在沒有人或其他程序介入時操作和運行。
通信能力:Agent能用某種通信語言與其它實體交換信息和互補利用。
感知能力和反應(yīng)能力:Agent可以感知環(huán)境并及時地做出反應(yīng),他們的行為通常觸發(fā)規(guī)則或執(zhí)行與定義的計劃;更新Agent 事實庫,并發(fā)送消息給環(huán)境中的其他 Agent。
能(主)動性:Agent主動表現(xiàn)出目標(biāo)驅(qū)動的行為,能自行選擇合適時機(jī)采取適宜動作。
持續(xù)性:Agent是持續(xù)或連續(xù)運行的過程,其狀態(tài)在運行過
程中應(yīng)保持一致。
模型采用 Agent技術(shù)的原因:
(1) Agent技術(shù)實現(xiàn)幫助用戶查找資源的導(dǎo)航作用。
(2)利用Agent技術(shù)實現(xiàn)決策支持,即對用戶的個性化搜索、成員搜索引擎的調(diào)度給于支持。
(3)利用 Agent技術(shù)實現(xiàn)信息過濾,即按照用戶的指定的條件,從流向用戶的大量信息中篩選出符合條件的信息提交給用戶。
(4)利用Agent技術(shù)實現(xiàn)信息的動態(tài)更新,搜索引擎本身的信息索引庫在不斷更新,利用Agent技術(shù)可維護(hù)元搜索引擎的信息庫不斷的動態(tài)更新。
2、 搜索引擎調(diào)度技術(shù)介紹
元搜索引擎下的每個成員搜索引擎都有自己的由一系列文檔所組成的文本數(shù)據(jù)庫,成員搜索引擎調(diào)度技術(shù)就是為每個查詢提供最可能包含有用文檔的成員搜索引擎,這對元搜索引擎的執(zhí)行效率是至關(guān)重要的?,F(xiàn)有的搜索引擎調(diào)度技術(shù)有:
樸素算法:這個方法沒有衡量成員搜索引擎的有用性,用戶查詢請求被簡單的送到每個成員搜索引擎上,當(dāng)成員搜索引擎較少時這種方法比較有效,但當(dāng)成員搜索引擎數(shù)量較大時,將查詢送到每個成員搜索引擎的策略就不合理了,因為大多數(shù)的成員搜索引擎對查詢毫無用處。
定性的方法:根據(jù)一定的評分函數(shù)對給定的查詢預(yù)測每個成員搜索引擎的質(zhì)量,起評分或質(zhì)量衡量往往不易理解。
基于學(xué)習(xí)的方法:根據(jù)以往檢索成員搜索引擎的經(jīng)驗來預(yù)測個引擎對信查詢的有用性。需要較長的時間才能收集到成員搜索引擎選擇程序有用的信息;反饋過程不嚴(yán)格,很可能導(dǎo)致對于有用成員搜索引擎的錯誤判斷。
定量的方法:根據(jù)一些比定性方法使用的衡量標(biāo)準(zhǔn)更容易理解的標(biāo)準(zhǔn)來衡量成員搜索引擎的有用性。定量方法使用根據(jù)給定查詢計算出的數(shù)據(jù)的有用性,相對定性方法而言更加直接和明晰。
3、 搜索引擎反饋結(jié)果合并技術(shù):結(jié)果合并技術(shù)劃分為兩類:(1)通過局部相似度的調(diào)整:根據(jù)成員搜索引擎的文檔相似度值歸一化到一個較為統(tǒng)一的值域,再進(jìn)行比較和排序(2)通過全局相似度的估計:計算或估計各個返回文檔的全局相似度。
3、系統(tǒng)研究與設(shè)計
1、系統(tǒng)結(jié)構(gòu)框架
2、用戶Agent:負(fù)責(zé)與用戶交互,主要由輸入接口、歷史庫、推理機(jī)、用戶模型和輸出接口構(gòu)成。
3、信息檢索Agent:主要由三個功能模塊組成,即查詢請求分析模塊、成員搜索引擎調(diào)度機(jī)制模塊和查詢參數(shù)轉(zhuǎn)換模塊。
4、 查詢結(jié)果處理Agent:主要有兩個功能:(1)負(fù)責(zé)吧各個成員搜索引擎返回的查詢結(jié)果根據(jù)策略庫中的信息,去掉無鏈接的頁面,去掉重復(fù)的冗余的信息。(2)計算和估計成員搜索引擎的各項相關(guān)性能的評價信息,然后修改信息庫中的內(nèi)容。
4、系統(tǒng)設(shè)計與實現(xiàn)中的關(guān)鍵問題
1、 基于用戶個人喜好的成員搜索引擎算法:響應(yīng)時間最快,返回文檔數(shù)最多,返回質(zhì)量最好的策略
2、 多Agent協(xié)同工作
以下本人有幾個問題,請高手賜教:
?。?) 如何把要搜索的內(nèi)容轉(zhuǎn)換為各個搜索引擎接收的格式:比如我要查找java,如何把這個查詢送到google上,或者其他搜索引擎上,有沒有什么固定的格式?
?。?) 如何獲取個搜索引擎的關(guān)于網(wǎng)頁的page rank,全局相似度,局部相似度。
(3) 在顯示給用戶的時候,這些如何排序,按照什么標(biāo)準(zhǔn)來排序,這種標(biāo)準(zhǔn)如何在多個搜索引擎的返回頁面中來統(tǒng)一。
PS:有沒有懂得元搜索引擎的,可以與我交流,e-mail:huochangzhi1982@163.com,其待共同提高
本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請
點擊舉報。