作者:黃果
使用搜索引擎是網(wǎng)民上網(wǎng)最重要的一件事。根據(jù)CNNIC的統(tǒng)計(jì),
搜索是互聯(lián)網(wǎng)上僅次于電子郵件的應(yīng)用,因此這篇文章對各個搜索引擎進(jìn)行客觀介紹,希望能夠給網(wǎng)民
搜索帶來方便。需要澄清的是,網(wǎng)站目錄并不是搜索引擎,搜索引擎指的是對整個互聯(lián)網(wǎng)成億個的網(wǎng)頁進(jìn)行檢索,此
搜索服務(wù)系統(tǒng)是基于網(wǎng)頁的全文檢索系統(tǒng)。而網(wǎng)站目錄通常是人工分類的有系統(tǒng)的網(wǎng)站列表,通常附有
搜索功能,從這個意義上說網(wǎng)站目錄更像Internet上的黃頁?,F(xiàn)在的大型網(wǎng)站通常是購買別的廠商的搜索引擎技術(shù),像Yahoo!就使用了Inktomi的技術(shù)而自己并不開發(fā)搜索引擎,楊志遠(yuǎn)在創(chuàng)業(yè)的時(shí)候所搜集的網(wǎng)址就是網(wǎng)站目錄。
搜索引擎是全自動的軟件服務(wù),并且非常容易在
搜索結(jié)果網(wǎng)頁中插入具有很高針對性的廣告,CPM最高可達(dá)70美元。所以搜索引擎一旦投入運(yùn)轉(zhuǎn),其收益與成本的比率遠(yuǎn)高于一般的網(wǎng)站內(nèi)容服務(wù)。這也是為什么大型網(wǎng)站特別是門戶網(wǎng)站將其列為“兵家必爭之地”的原因。
第一代搜索引擎
門戶成為第一代搜索引擎的終點(diǎn)
Altavista(www.altavista.com)
Altavista是搜索引擎的元老,誕生于DEC研發(fā)中心。它也是Yahoo!最早的搜索引擎技術(shù)的提供者。Altavista的特點(diǎn)是速度快,這一點(diǎn)國內(nèi)用戶可能感覺不到,這是因?yàn)槠浞?wù)器位于國外。DEC當(dāng)時(shí)的想法是希望通過搜索引擎告訴大家Alpha芯片的威力,
因此服務(wù)器使用的是Alpha芯片,它能夠提供極快的響應(yīng)速度,而且其
搜索的數(shù)據(jù)量也是相當(dāng)龐大的,但其缺點(diǎn)在于服務(wù)器價(jià)格昂貴。
Altavista還可以提供許多不同格式內(nèi)容,像音頻、視頻與多國語言的檢索,有不少國內(nèi)搜索引擎找不到網(wǎng)頁都可以通過它找到。但 Altavista在更新頻率上不是很快,其中文
搜索的技術(shù)已經(jīng)有兩三年沒有改進(jìn)過,檢索內(nèi)容更新頻率大約是一個月一次。音頻、視頻與圖像占用空間很大,要做好這方面的服務(wù),需要占用相當(dāng)大的存儲空間,而Altavista在這方面做得相當(dāng)不錯,可以說處于世界領(lǐng)先的地位。
Infoseek(www.infoseek.com)
Infoseek不是以數(shù)據(jù)庫大而見長的,而是以檢索的相關(guān)程度高而知名。Infoseek購買了馬薩諸塞大學(xué)的
搜索軟件產(chǎn)品,
而馬薩諸塞大學(xué)的信息檢索是全美高校數(shù)一數(shù)二的,所以Infoseek一開始的起點(diǎn)就很高。但他們很快就發(fā)現(xiàn),互聯(lián)網(wǎng)數(shù)據(jù)量太大了,當(dāng)初設(shè)計(jì)的規(guī)模太小,只好重新編寫程序。于是Infoseek請了一位華人工程師
William Chang設(shè)計(jì)了第一代Infoseek搜索引擎Ultraseek,其特點(diǎn)也是速度快,同時(shí)檢索結(jié)果的相關(guān)程度也很高。產(chǎn)品一推出在搜索引擎領(lǐng)域與華爾街都引起了很大的震動,Infoseek剛上市時(shí)是Yahoo!市值的60%~70%,大大領(lǐng)先于另外幾家搜索引擎,而其后臺的領(lǐng)先的搜索引擎技術(shù)功不可沒。1999年,Infoseek被Disney所購買,發(fā)展方向與定位都做了調(diào)整。Disney將其做為入門網(wǎng)站Go.com的搜索引擎,在技術(shù)上的革新比較少,處于維持現(xiàn)狀的水平,主要是做娛樂方面的索引。
Excite(www.excite.com)
Excite是斯坦福大學(xué)的六位計(jì)算機(jī)系的本科生創(chuàng)辦的。“免費(fèi)讓人
搜索,用廣告收入來補(bǔ)貼",這是Excite率先提出來的,也是當(dāng)時(shí)比較新的概念。Excite
搜索技術(shù)研發(fā)人員的計(jì)算機(jī)功底扎實(shí),但對信息檢索的認(rèn)識不是很深,所以一開始提出的概念
搜索(Concept Search),即用同義詞推斷來增加
搜索的結(jié)果很快就宣告失敗。因?yàn)榛ヂ?lián)網(wǎng)的信息不是太少了而是太多了,
搜索的目的是在茫茫的信息海洋中找到所需要的精確的信息。后來Excite與@home 合并,開始主攻寬帶市場,也就沒有更新的技術(shù)出現(xiàn)。
Lycos(www.lycos.com)
Lycos是早期搜索引擎中唯一誕生于美國東部的,其余的搜索引擎都在硅谷。它脫胎于卡耐基·梅隆大學(xué)的一位博士生的一套互聯(lián)網(wǎng)
搜索程序,此后被風(fēng)險(xiǎn)投資集團(tuán)CMGI看中,并且在波士頓成立了公司。其
搜索技術(shù)一直比較落后,但在商業(yè)上比較成功,Lycos很早就投資做社區(qū)網(wǎng)站,網(wǎng)絡(luò)廣告也賣得不錯,在商業(yè)操作上的成功掩飾了其技術(shù)的落后。Lycos后來購買了一家廣受好評的
搜索網(wǎng)站Hotbot,但實(shí)際Hotbot 在后臺用的也是Inktomi的技術(shù)。所以Lycos在很長的一段時(shí)間里同時(shí)維持著兩個
搜索平臺,但在今年年初他們?nèi)娓挠昧薎nktomi的搜索引擎。
第二代搜索引擎
只做后臺技術(shù)提供者與大量應(yīng)用人工智能是第二代搜索引擎的標(biāo)志
從1995年Web商業(yè)化開始,
搜索技術(shù)的地位就一直很重要。最早的幾個互聯(lián)網(wǎng)商業(yè)公司就是靠
搜索技術(shù)起家的,但
搜索技術(shù)本身的革新一直就沒有停止過,而且在商業(yè)模式上也不斷地推陳出新。
第一代的搜索引擎公司都變成了門戶網(wǎng)站,而第二代的搜索引擎廠商則是像Inktomi、Google那樣給網(wǎng)站提供技術(shù)與服務(wù)的ASP或是在技術(shù)上采用了人工智能技術(shù)的廠商,像Askjeeves,Direct hit等。它們在商業(yè)模式上也在不斷創(chuàng)新,像Goto.com允許網(wǎng)站的擁有者實(shí)時(shí)進(jìn)行檢索結(jié)果的排序,客戶可以花錢購買排序的位置,通過拍賣的形式將相關(guān)網(wǎng)站放在前面,但同時(shí)明確標(biāo)出這個
搜索結(jié)果是付費(fèi)的。此外,
垂直化的搜索引擎也應(yīng)運(yùn)而生,像專門做圖形圖像或MP3文件的搜索引擎。而最新的技術(shù)是動態(tài)的網(wǎng)頁
搜索和實(shí)時(shí)內(nèi)容的檢索,網(wǎng)絡(luò)上越來越多的網(wǎng)頁是根據(jù)程序生成的,而不是靜態(tài)地存在。這些頁面都是根據(jù)時(shí)間變化而變化的,比如查詢股票的價(jià)格等。而實(shí)時(shí)的內(nèi)容多是新聞與金融信息,這也是廣大網(wǎng)民迫切需要的。
第二代搜索引擎廠商的特點(diǎn)是只做后臺技術(shù)的提供者,這是美國互聯(lián)網(wǎng)發(fā)展的教訓(xùn)。因?yàn)榫W(wǎng)絡(luò)最初發(fā)展時(shí)最迫切需要的是
搜索,于是同時(shí)出現(xiàn)了許多搜索引擎,但是后來各廠商認(rèn)識到作為獨(dú)立公司單獨(dú)開發(fā)搜索引擎不能維持長期發(fā)展,
于是又都發(fā)展成門戶,提供了許多別的內(nèi)容,但它們很快發(fā)現(xiàn)搜索不像新聞一樣沒有什么技術(shù)含量。而作為一個公司,則要同時(shí)肩負(fù)兩個任務(wù),一是創(chuàng)建門戶類的平臺,這是打市場、創(chuàng)品牌的過程,二是開發(fā)搜索引擎,而這則是扎扎實(shí)實(shí)的技術(shù)工作,這兩方面沒有什么共同點(diǎn)。既做搜索引擎又做門戶使得網(wǎng)站精力分散,不能全力投入搜索引擎技術(shù)的改進(jìn),而且兩者合一意味著自己的產(chǎn)品不能賣給別人,因?yàn)楫?dāng)時(shí)搜索引擎的用戶大多是做門戶的,全是自己的競爭對手。搜索引擎的開發(fā)的成本又相當(dāng)高,而制作的東西又只能少數(shù)幾家使用,這就不符合軟件通用化的潮流與模式。
第一代網(wǎng)站中,只有Yahoo!不自己開發(fā)搜索引擎,所以它成功了。
Inktomi(www.inktomi.com)
Inktomi是加州大學(xué)伯克利分校Eric Brewer的教授最先開始研究的,這位教授是并行處理研究的專家。Eric Brewer希望用這個搜索引擎產(chǎn)品來證明他的并行算法是十分出色的,后來他將自己的技術(shù)賣給了Hotbot,作為后臺技術(shù)的提供商。
Eric Brewer完成Inktomi的時(shí)候,這個市場競爭已經(jīng)相當(dāng)激烈,再想做門戶已經(jīng)不可能了。所以他決定只做背后技術(shù)的提供商,而這卻正中 Yahoo!的下懷,Yahoo!以前使用的是Altavista的技術(shù),但Altavista本身也是門戶,與 Yahoo!處于競爭關(guān)系,而Inktomi與Yahoo!沒有利益沖突關(guān)系,便很快成了其后臺技術(shù)的提供商。
Askjeeves(www.ask.com)
從技術(shù)上講,Askjeeves是一個比較簡單的系統(tǒng),但從創(chuàng)意來說是相當(dāng)出色的,它維護(hù)了問題與答案相聯(lián)系的數(shù)據(jù)庫。從結(jié)構(gòu)上說它比較簡單,因?yàn)樘釂柡蟛⒉皇橇⒓捶祷貑栴}的答案,而是用逼近式的方法讓你選擇他知道的所有問題,再由用戶分類來選擇答案。這一點(diǎn)從技術(shù)上講非常容易解決,但從實(shí)踐來說需要大量的人力來干預(yù),即問題與結(jié)果的數(shù)據(jù)庫規(guī)則基本是靠人工來建立的。但由于它建立了一套可以讓人以自然語言提問的系統(tǒng),很多網(wǎng)民喜歡這樣的形式。但由于其規(guī)則庫太小,真正使用的人不是很多。
Goto(www.goto.com)
從本身技術(shù)來說,Goto.com使用了
超鏈分析與根據(jù)用戶的點(diǎn)擊行為來
分析與重排序,
搜索得到的結(jié)果相關(guān)性程度較高,而且比較符合用戶的點(diǎn)擊習(xí)慣。
Google(www.google.com)
Google由Larry Page和Sergey Brin設(shè)計(jì), 于 1998年9月發(fā)布測試版,一年后正式開始商業(yè)運(yùn)營。Google由于對搜索引擎技術(shù)的創(chuàng)新而獲獎無數(shù),如美國《時(shí)代》雜志評選的“1999年度十大網(wǎng)絡(luò)技術(shù)"之一、《個人電腦》雜志授予的“最佳技術(shù)獎"、The Net授予的“最佳搜索引擎獎"等。Google現(xiàn)為全球80多家門戶和終點(diǎn)網(wǎng)站提供支持,客戶遍及20多個國家。
在國內(nèi),大家對于這家搜索引擎技術(shù)提供商還比較陌生,但今年年初,Yahoo!宣布將不再采用Inktomi的
搜索服務(wù),而轉(zhuǎn)而將Google作為其搜索引擎技術(shù)提供商,此舉使Google 聲名大噪。 Google所擅長的是易用性和高相關(guān)性。 Google提供一系列革命性的新技術(shù),包括完善的文本對應(yīng)技術(shù)和先進(jìn)的PageRank排序技術(shù),后者可以保證重要的
搜索結(jié)果排列在結(jié)果列表的前面。Google還提供一項(xiàng)很有用的服務(wù)— —“網(wǎng)頁快照”功能,即當(dāng)
搜索內(nèi)容站點(diǎn)或網(wǎng)頁不存在時(shí),用戶可以調(diào) 用Google事先為用戶儲存的大量應(yīng)急網(wǎng)頁,經(jīng)Google處理后,
搜索項(xiàng)均用不同顏色標(biāo)明,另外還有標(biāo)題信息說明其存檔時(shí)間日期,并提醒用戶這只是存檔資料。實(shí)際上Google將檢索的網(wǎng)頁都做了一番“快照”然后放在自己的服務(wù)器上,這樣做的好處是不僅下載速度極快,而且可以獲得互聯(lián)網(wǎng)上已經(jīng)刪除的網(wǎng)頁。
目前Google已與網(wǎng)易公司(163.com)達(dá)成協(xié)議,自9月15日起,網(wǎng)易采用Google的技術(shù)向用戶提供新一代的中文搜索引擎,Google的中文搜索引擎是收集亞洲網(wǎng)站最多的搜索引擎之一,這也是Google拓展全球信息市場的重要基礎(chǔ)。根據(jù)雙方協(xié)議,網(wǎng)易的用戶不僅能夠通過Google訪問2400萬個中文頁面,還可以訪問其全部目錄中超過10億的Web文件。目前,Google.com的用戶已經(jīng)可以使用包括中文、法語、德語、意大利語和西班牙語在內(nèi)的14種語言進(jìn)行
搜索。Google公司正在雄心勃勃地籌備更豐富的服務(wù)內(nèi)容,如日語、朝鮮語和其他客戶化定制的搜索引擎服務(wù)。
國內(nèi)搜索引擎
中文語言文化呼喚中國本土的搜索引擎 ----中文的語言文化對國外搜索引擎產(chǎn)品是一個天然的屏障,這使得國外的產(chǎn)品不能簡單漢化就拿給國內(nèi)的ICP使用,這一點(diǎn)與翻譯軟件非常類似,因此國內(nèi)廠商在這個領(lǐng)域的機(jī)會是很大的。
但國內(nèi)的搜索引擎技術(shù)與國外相比依然差距較大,從技術(shù)角度說搜索引擎基本由三部分組成,第一部分是蜘蛛軟件(Spider),即自動的收集程序,它的作用是負(fù)責(zé)收集網(wǎng)頁的內(nèi)容;第二部分是索引器(Indexer),其作用是將收集回來的內(nèi)容進(jìn)行
分析,然后做一個索引;第三部分是搜索器(Searcher),即響應(yīng)用戶的檢索請示,用戶輸入關(guān)鍵字后,搜索器要用這個檢索詞與建立的索引器匹配,匹配后做相關(guān)性排序,再將排序結(jié)果送給用戶。目前國內(nèi)搜索引擎能夠檢索2000萬個網(wǎng)頁,而國外能做到上億個,其差距主要是在蜘蛛軟件與搜索器上,因?yàn)槟軌蜓邪l(fā)大容量與大訪問量的系統(tǒng)與軟件的人才是相當(dāng)稀少的。國內(nèi)有些中文網(wǎng)站的網(wǎng)頁
搜索服務(wù)外包給一些服務(wù)器在境外的ASP,這也是查詢速度緩慢的原因之一。
搜索引擎服務(wù)在國內(nèi)大有市場,高盛公司的資料表明,到2001年中文互聯(lián)網(wǎng)的網(wǎng)絡(luò)廣告收入將達(dá)到3.5億美元,而從美國的經(jīng)驗(yàn)來看,在網(wǎng)絡(luò)發(fā)展的早期,
搜索可以占到50%以上的廣告收入。
百度(www.baidu.com)
百度是海外留學(xué)的學(xué)子們回國創(chuàng)辦的,總裁李彥宏就是Infoseek第二代搜索引擎的開發(fā)者,他發(fā)明的
超鏈技術(shù)現(xiàn)在在搜索引擎技術(shù)開發(fā)中廣泛地被使用。
百度搜索引擎已經(jīng)被多家網(wǎng)站使用,包括三大門戶中的新浪與搜狐,此外還有人氣極旺的ChinaRen、南方的21cn與廣州視窗等。百度搜索引擎的特點(diǎn)是:1智能化的中文語言處理技術(shù)大大提高了
搜索的準(zhǔn)確性與查全率;2可擴(kuò)展的
搜索技術(shù)保證最快最多地收集網(wǎng)絡(luò)信息,構(gòu)建大規(guī)模索引庫;3高效的
搜索算法和本地服務(wù)器保證最快的響應(yīng)速度,一個檢索的平均響應(yīng)時(shí)間小于0.18秒;4支持動態(tài)網(wǎng)頁的檢索,而一些搜索引擎負(fù)責(zé)
搜索網(wǎng)頁的Spider不檢索動態(tài)網(wǎng)頁,因?yàn)榕卤蛔兓療o窮的動態(tài)系統(tǒng)黑洞吸進(jìn)去后出不來了。然而,隨著應(yīng)用CGI、PHP等的網(wǎng)站日益增多,網(wǎng)站使用動態(tài)網(wǎng)頁生成工具是大趨勢。