在互聯(lián)網發(fā)展初期,網站相對較少,信息查找比較容易。然而伴隨互聯(lián)網爆炸性的發(fā)展,普通網絡用戶想找到所需的資料簡直如同大海撈針,這時為滿足大眾信息檢索需求的專業(yè)搜索網站便應運而生了。
現(xiàn)代意義上的搜索引擎的祖先,是1990年由蒙特利爾大學學生Alan Emtage發(fā)明的Archie。雖然當時World Wide Web還未出現(xiàn),但網絡中文件傳輸還是相當頻繁的,而且由于大量的文件散布在各個分散的FTP主機中,查詢起來非常不便,因此Alan Emtage想到了開發(fā)一個可以以文件名查找文件的系統(tǒng),于是便有了Archie。
Archie工作原理與現(xiàn)在的搜索引擎已經很接近,它依靠腳本程序自動搜索網上的文件,然后對有關信息進行索引,供使用者以一定的表達式查詢。由于Archie深受用戶歡迎,受其啟發(fā),美國內華達System Computing Services大學于1993年開發(fā)了另一個與之非常相似的搜索工具,不過此時的搜索工具除了索引文件外,已能檢索網頁。
當時,“機器人”一詞在編程者中十分流行。電腦“機器人”(Computer Robot)是指某個能以人類無法達到的速度不間斷地執(zhí)行某項任務的軟件程序。由于專門用于檢索信息的“機器人”程序象蜘蛛一樣在網絡間爬來爬去,因此,搜索引擎的“機器人”程序就被稱為“蜘蛛”程序。
世界上第一個用于監(jiān)測互聯(lián)網發(fā)展規(guī)模的“機器人”程序是Matthew Gray開發(fā)的World wide Web Wanderer。剛開始它只用來統(tǒng)計互聯(lián)網上的服務器數(shù)量,后來則發(fā)展為能夠檢索網站域名。
與Wanderer相對應,Martin Koster于1993年10月創(chuàng)建了ALIWEB,它是Archie的HTTP版本。ALIWEB不使用“機器人”程序,而是靠網站主動提交信息來建立自己的鏈接索引,類似于現(xiàn)在我們熟知的Yahoo。
隨著互聯(lián)網的迅速發(fā)展,使得檢索所有新出現(xiàn)的網頁變得越來越困難,因此,在Matthew Gray的Wanderer基礎上,一些編程者將傳統(tǒng)的“蜘蛛”程序工作原理作了些改進。其設想是,既然所有網頁都可能有連向其他網站的鏈接,那么從跟蹤一個網站的鏈接開始,就有可能檢索整個互聯(lián)網。到1993年底,一些基于此原理的搜索引擎開始紛紛涌現(xiàn),其中以JumpStation、The World Wide Web Worm(Goto的前身,也就是今天Overture),和Repository-Based Software Engineering (RBSE) spider最負盛名。
然而JumpStation和WWW Worm只是以搜索工具在數(shù)據(jù)庫中找到匹配信息的先后次序排列搜索結果,因此毫無信息關聯(lián)度可言。而RBSE是第一個在搜索結果排列中引入關鍵字串匹配程度概念的引擎。
最早現(xiàn)代意義上的搜索引擎出現(xiàn)于1994年7月。當時Michael Mauldin將John Leavitt的蜘蛛程序接入到其索引程序中,創(chuàng)建了大家現(xiàn)在熟知的Lycos。同年4月,斯坦福(Stanford)大學的兩名博士生,David Filo和美籍華人楊致遠(Gerry Yang)共同創(chuàng)辦了超級目錄索引Yahoo,并成功地使搜索引擎的概念深入人心。從此搜索引擎進入了高速發(fā)展時期。目前,互聯(lián)網上有名有姓的搜索引擎已達數(shù)百家,其檢索的信息量也與從前不可同日而語。比如最近風頭正勁的Google,其數(shù)據(jù)庫中存放的網頁已達30億之巨!
隨著互聯(lián)網規(guī)模的急劇膨脹,一家搜索引擎光靠自己單打獨斗已無法適應目前的市場狀況,因此現(xiàn)在搜索引擎之間開始出現(xiàn)了分工協(xié)作,并有了專業(yè)的搜索引擎技術和搜索數(shù)據(jù)庫服務提供商。象國外的Inktomi(已被Yahoo收購),它本身并不是直接面向用戶的搜索引擎,但向包括Overture(原GoTo,已被Yahoo收購)、LookSmart、MSN、HotBot等在內的其他搜索引擎提供全文網頁搜索服務。國內的百度也屬于這一類(百度已于2001年9月開始提供公共搜索服務),搜狐和新浪用的就是它的技術(搜狐二級網頁搜索現(xiàn)已改為中搜的引擎,而新浪則已轉用Google的搜索結果)。因此從這個意義上說,它們是搜索引擎的搜索引擎。
本站僅提供存儲服務,所有內容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權內容,請
點擊舉報。