行業(yè)搜索引擎簡(jiǎn)介
演示WSSE 是北京西方源點(diǎn)軟件技術(shù)有限公司剛剛開發(fā)完成的一款新型web搜索引擎。主要用于建設(shè)行業(yè)縱向?qū)I(yè)搜索引擎。
WSSE致力于讓每個(gè)人能很容易, 同時(shí)花費(fèi)很少就可以配置世界一流的Web搜索引擎. 為了完成這一宏偉的目標(biāo), WSSE必須能夠做到:
每個(gè)月取幾十億網(wǎng)頁
為這些網(wǎng)頁維護(hù)一個(gè)索引
對(duì)索引文件進(jìn)行每秒上千次的搜索
提供高質(zhì)量的搜索結(jié)果
以最小的成本運(yùn)作
隨著互聯(lián)網(wǎng)技術(shù)和互聯(lián)網(wǎng)應(yīng)用的發(fā)展,網(wǎng)上內(nèi)容極大豐富,信息海量化正在導(dǎo)致信息垃圾化,信息本身的價(jià)值正在被創(chuàng)造海量信息的網(wǎng)絡(luò)本身所消減。搜索引擎的價(jià)值就在于從海量的信息中搜集、分析、甄別、加工、整理、提取出我們所需要的有用的信息。
一、 建設(shè)行業(yè)主題搜索引擎的必要性
1、搜索催生互聯(lián)網(wǎng)革命
互聯(lián)網(wǎng)發(fā)展的初期,強(qiáng)調(diào)信息本身的價(jià)值,認(rèn)為只要解決信息資源的短缺問題就會(huì)帶來價(jià)值提升;而經(jīng)過十多年發(fā)展的今天,則認(rèn)為信息本身并不稀缺,只有解決了信息的甄別、加工、提純和挖掘,只有從海量形如垃圾的信息中發(fā)現(xiàn)真正的知識(shí),才能帶來價(jià)值的提升。
互聯(lián)網(wǎng)發(fā)展的重心和焦點(diǎn)經(jīng)歷了網(wǎng)絡(luò)、溝通、內(nèi)容和搜索這么幾個(gè)階段:互聯(lián)網(wǎng)的發(fā)展促進(jìn)了信息溝通,信息溝通的便利促進(jìn)了網(wǎng)上內(nèi)容的豐富,網(wǎng)上內(nèi)容的豐富又促進(jìn)了搜索引擎的發(fā)展和應(yīng)用。這個(gè)自然而然的發(fā)展過程提示我們:在網(wǎng)上內(nèi)容極大豐富的今天,搜索引擎將比以往任何一個(gè)時(shí)候都更加重要。
在網(wǎng)絡(luò)尤其是網(wǎng)上內(nèi)容已經(jīng)極大豐富的今天,忽視或者不充分重視這一動(dòng)向必將付出極大的代價(jià),不論他是從事網(wǎng)絡(luò)媒體,還是電子商務(wù)。
搜索催生的互聯(lián)網(wǎng)革命的第一個(gè)標(biāo)志是互聯(lián)網(wǎng)已經(jīng)從“內(nèi)容為王”(在經(jīng)歷了“網(wǎng)絡(luò)為王”和“溝通為王”之后)走進(jìn)“搜索為王”的時(shí)代。是的,任何對(duì)搜索無動(dòng)于衷或者投入不力的網(wǎng)站,無論在內(nèi)容時(shí)代如何杰出,都必然為搜索催生的互聯(lián)網(wǎng)革命所淘汰。
除此以外,搜索催生的互聯(lián)網(wǎng)革命還表現(xiàn)在互聯(lián)網(wǎng)的“商務(wù)模式”和“業(yè)務(wù)形態(tài)”等方面。
商務(wù)模式:
隨著互聯(lián)網(wǎng)發(fā)展的焦點(diǎn)從“內(nèi)容”升華到“搜索”和“搜索增值服務(wù)”,互聯(lián)網(wǎng)商務(wù)模式的基本結(jié)構(gòu)也必然隨之發(fā)生根本性的變革——在新的層次上回歸yahoo曾經(jīng)的以搜索為基礎(chǔ)的商務(wù)模式。
搜索將不再只是網(wǎng)站(特別是門戶網(wǎng)站)一個(gè)附屬的甚至可有可無、錦上添花的工具,搜索將成為網(wǎng)站一切服務(wù)和功能的基礎(chǔ),將居于網(wǎng)站商務(wù)模式架構(gòu)的中心位置;離開搜索,網(wǎng)站的服務(wù)和功能至少不能以有競(jìng)爭(zhēng)力的滿意度提供。
互聯(lián)網(wǎng)商務(wù)模式變革的另一支力量來自專業(yè)搜索引擎(如google)的“綜合化”(如前所述)。以強(qiáng)大的搜索引擎為技術(shù)支撐,這些專業(yè)搜索引擎將大力擴(kuò)展和整合,發(fā)展一系列以搜索為核心和基礎(chǔ)的協(xié)同業(yè)務(wù)——如google推出(包括收購(gòu))的廣告、新聞、blog和Email等,從而構(gòu)建嶄新的具備強(qiáng)大競(jìng)爭(zhēng)力的互聯(lián)網(wǎng)商務(wù)模式。
業(yè)務(wù)形態(tài):
網(wǎng)上搜索或搜索引擎改變了眾多互聯(lián)網(wǎng)業(yè)務(wù)的面貌,也創(chuàng)新了一批原來所沒有的新的互聯(lián)網(wǎng)業(yè)務(wù),搜索催生了互聯(lián)網(wǎng)業(yè)務(wù)形態(tài)的巨大變革。
網(wǎng)絡(luò)廣告的歷史可謂早矣,即使在中國(guó)也有十年的歷史。然而,直到2001年前后,網(wǎng)絡(luò)廣告依然沒有擺脫傳統(tǒng)廣告的基本模式,依然與傳統(tǒng)的電視廣告、報(bào)刊廣告沒有本質(zhì)上的區(qū)別,唯一的不同僅僅表現(xiàn)在媒體上——從傳統(tǒng)媒體到網(wǎng)絡(luò)媒體。網(wǎng)絡(luò)廣告的真正創(chuàng)新是從與搜索的結(jié)合開始了,有了搜索,網(wǎng)絡(luò)廣告才第一次真正有了屬于自己的業(yè)務(wù)形態(tài)或商務(wù)模式,才第一次有可能從根本上與傳統(tǒng)廣告區(qū)別開來,才第一次踏上向傳統(tǒng)廣告夢(mèng)寐以求而不得其門的廣告“精準(zhǔn)化”的歷程。競(jìng)價(jià)排名廣告是這樣,內(nèi)容關(guān)聯(lián)廣告也是這樣......。
Google、百度等一大批專業(yè)搜索引擎憑此敲開了互聯(lián)網(wǎng)財(cái)富之門,開創(chuàng)了搜索引擎引領(lǐng)互聯(lián)網(wǎng)發(fā)展的新時(shí)代。
變革所及已經(jīng)超出網(wǎng)絡(luò)廣告的范圍:基于搜索引擎的信息增值業(yè)務(wù)——競(jìng)爭(zhēng)情報(bào)系統(tǒng)、阿里巴巴網(wǎng)商搜索、8848的購(gòu)物搜索、google的基于搜索和網(wǎng)絡(luò)廣告的大容量電子郵箱業(yè)務(wù),等等。
事實(shí)上,幾乎所有互聯(lián)網(wǎng)業(yè)務(wù)形態(tài)都或多或少地在搜索的巨大影響下或者改變形態(tài),或者被創(chuàng)新出來。
2、搜索的價(jià)值
電子郵件和搜索引擎長(zhǎng)期以來一直是兩項(xiàng)最受歡迎、最熱門的互聯(lián)網(wǎng)業(yè)務(wù)。中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)截止2004年6月底的統(tǒng)計(jì)表明,互聯(lián)網(wǎng)用戶使用電子郵件和搜索引擎的比率分別為84.3%和64.4%,在30余種網(wǎng)絡(luò)服務(wù)中高居前三位。用戶對(duì)搜索引擎的滿意度也很高,其中,對(duì)搜索引擎服務(wù)表示非常滿意和比較滿意的分別為26.9%和52.5%(居各項(xiàng)服務(wù)之首),表示不太滿意和很不滿意的僅為2.8%和0.6%(居各項(xiàng)服務(wù)之末)。搜索引擎在互聯(lián)網(wǎng)世界的重要地位由來已久。當(dāng)年,Yahoo作為門戶網(wǎng)站奇跡般崛起所仰仗的正是搜索引擎。在日益復(fù)雜的互聯(lián)網(wǎng)世界里,面對(duì)日益繁雜和海量的網(wǎng)上信息,Yahoo的搜索引擎曾經(jīng)為人們?cè)诨ヂ?lián)網(wǎng)世界遨游、沖浪提供了幾乎無可替代的工具和手段。Yahoo在通過搜索引擎為用戶提供價(jià)值的同時(shí),也極大地贏得和提升了自身的價(jià)值。
今天,搜索引擎的地位不僅沒有被削弱,反而更加強(qiáng)化了。繼Yahoo之后,Google又以其搜索引擎的技術(shù)創(chuàng)新、競(jìng)價(jià)排名和專業(yè)風(fēng)格等創(chuàng)造了新的奇跡。在國(guó)內(nèi),百度、慧聰也在很短時(shí)間里憑借搜索引擎取得很大成功。隨著互聯(lián)網(wǎng)行業(yè)的持續(xù)發(fā)展,隨著搜索引擎技術(shù)和業(yè)務(wù)模式的持續(xù)創(chuàng)新(尤其是與網(wǎng)絡(luò)廣告的整合和贏利模式的創(chuàng)新),2002年下半年以來,搜索引擎又一次引起了全球互聯(lián)網(wǎng)行業(yè)的高度關(guān)注,一場(chǎng)由搜索引擎創(chuàng)新引發(fā)的互聯(lián)網(wǎng)行業(yè)大變局正在醞釀和發(fā)生之中。
歷史和現(xiàn)實(shí)一再證明:搜索是互聯(lián)網(wǎng)世界的制高點(diǎn)。
這是一個(gè)無可爭(zhēng)議的事實(shí)。這個(gè)事實(shí)也是另一個(gè)事實(shí)的必然結(jié)果,這就是:世界正在通過互聯(lián)網(wǎng)非常急速地從“信息時(shí)代”走進(jìn)“信息經(jīng)濟(jì)時(shí)代”。今天,如果還在津津樂道于“信息時(shí)代”,還在不知疲倦地重復(fù)“信息就是金錢”的口號(hào),肯定(至少在許多地方)是過時(shí)了。“信息時(shí)代”與“信息經(jīng)濟(jì)時(shí)代”的重大區(qū)別在于:前者強(qiáng)調(diào)信息本身的價(jià)值,認(rèn)為只要解決信息資源的短缺問題就會(huì)帶來價(jià)值的提升;后者認(rèn)為信息并不稀缺,相反,信息技術(shù)特別是互聯(lián)網(wǎng)的出現(xiàn)正在使信息泛濫,以前視為寶貝的信息正在走向“垃圾化”,只有解決了信息的甄別、加工、提純和挖掘,只有從巨量的、形如垃圾的信息中發(fā)現(xiàn)真正的知識(shí),才能帶來價(jià)值的提升。
Yahoo和Google的成功說明深刻理解互聯(lián)網(wǎng)并占據(jù)其制高點(diǎn)是多么的關(guān)鍵。什么叫深刻?深刻就是能夠透過事物暫時(shí)和表面的現(xiàn)象把握長(zhǎng)久和內(nèi)在的東西。互聯(lián)網(wǎng)是一種信息提供和傳遞的工具,是一種新的信息媒介,這是顯而易見的。但是,隱藏在這些顯而易見的表象背后的則是一些非常不同的東西:互聯(lián)網(wǎng)的發(fā)展正在導(dǎo)致信息提供和傳遞的“公共化”,信息提供和傳遞的商業(yè)價(jià)值正在消減,事情的關(guān)鍵不是能否快速、海量地提供和傳遞信息,而是能否在期望的時(shí)間和地點(diǎn),以期望的方式和成本,獲取所期望的信息;也就是說,商業(yè)價(jià)值的重點(diǎn)正在從信息的“發(fā)送端”向“接收端”延伸和轉(zhuǎn)移;或者說,在當(dāng)今的互聯(lián)網(wǎng)上,幫人有效地接收信息較之幫人有效地發(fā)送信息至少同等重要。
3、未來發(fā)展
搜索引擎已成為一個(gè)新的研究、開發(fā)領(lǐng)域。因?yàn)樗玫叫畔z索、人工智能、計(jì)算機(jī)網(wǎng)絡(luò)、分布式處理、數(shù)據(jù)庫(kù)、數(shù)據(jù)挖掘、數(shù)字圖書館、自然語言處理等多領(lǐng)域的理論和技術(shù),所以具有綜合性和挑戰(zhàn)性。又由于搜索引擎有大量的用戶,有很好的經(jīng)濟(jì)價(jià)值,所以引起了世界各國(guó)計(jì)算機(jī)科學(xué)界和信息產(chǎn)業(yè)界的高度關(guān)注,目前的研究、開發(fā)十分活躍,并出現(xiàn)了很多值得注意的動(dòng)向。
提高信息查詢結(jié)果的精度,提高檢索的有效性—用戶在搜索引擎上進(jìn)行信息查詢時(shí),并不十分關(guān)注返回結(jié)果的多少,而是看結(jié)果是否和自己的需求吻合。對(duì)于一個(gè)查詢,傳統(tǒng)的搜索引擎動(dòng)輒返回幾十萬、幾百萬篇文檔,用戶不得不在結(jié)果中篩選。解決查詢結(jié)果過多的現(xiàn)象目前出現(xiàn)了幾種方法:一是通過各種方法獲得用戶沒有在查詢語句中表達(dá)出來的真正用途,包括使用智能代理跟蹤用戶檢索行為,分析用戶模型;使用相關(guān)度反饋機(jī)制,使用戶告訴搜索引擎哪些文檔和自己的需求相關(guān)(及其相關(guān)的程度),哪些不相關(guān),通過多次交互逐步求精。二是用正文分類(Text Categorization)技術(shù)將結(jié)果分類,使用可視化技術(shù)顯示分類結(jié)構(gòu),用戶可以只瀏覽自己感興趣的類別。三是進(jìn)行站點(diǎn)類聚或內(nèi)容類聚,減少信息的總量。
基于智能代理的信息過濾和個(gè)性化服務(wù)—信息智能代理是另外一種利用互聯(lián)網(wǎng)信息的機(jī)制。它使用自動(dòng)獲得的領(lǐng)域模型(如Web知識(shí)、信息處理、與用戶興趣相關(guān)的信息資源、領(lǐng)域組織結(jié)構(gòu))、用戶模型(如用戶背景、興趣、行為、風(fēng)格)知識(shí)進(jìn)行信息搜集、索引、過濾(包括興趣過濾和不良信息過濾),并自動(dòng)地將用戶感興趣的、對(duì)用戶有用的信息提交給用戶。智能代理具有不斷學(xué)習(xí)、適應(yīng)信息和用戶興趣動(dòng)態(tài)變化的能力,從而提供個(gè)性化的服務(wù)。智能代理可以在用戶端進(jìn)行,也可以在服務(wù)器端運(yùn)行。
采用分布式體系結(jié)構(gòu)提高系統(tǒng)規(guī)模和性能—搜索引擎的實(shí)現(xiàn)可以采用集中式體系結(jié)構(gòu)和分布式體系結(jié)構(gòu),兩種方法各有千秋。但當(dāng)系統(tǒng)規(guī)模到達(dá)一定程度(如網(wǎng)頁數(shù)達(dá)到億級(jí))時(shí),必然要采用某種分布式方法,以提高系統(tǒng)性能。搜索引擎的各個(gè)組成部分,除了用戶接口之外,都可以進(jìn)行分布:搜索器可以在多臺(tái)機(jī)器上相互合作、相互分工進(jìn)行信息發(fā)現(xiàn),以提高信息發(fā)現(xiàn)和更新速度;索引器可以將索引分布在不同的機(jī)器上,以減小索引對(duì)機(jī)器的要求;檢索器可以在不同的機(jī)器上進(jìn)行文檔的并行檢索,以提高檢索的速度和性能。
事實(shí)上,搜索引擎要解決的基本問題仍然準(zhǔn)、全、快。其中“快”是最好解決的,通過增加設(shè)備、帶寬等網(wǎng)絡(luò)資源,能大體上滿足用戶的要求。而要解決“準(zhǔn)和全”的問題就沒有那么簡(jiǎn)單了。除去改進(jìn)算法、提高系統(tǒng)容量外,更加有效的方法是開發(fā)建設(shè)所謂垂直內(nèi)容的搜索引擎—行業(yè)主題搜索引擎。
在Google、百度等專業(yè)搜索引擎服務(wù)商在搜索服務(wù)行業(yè)形成壟斷地位后,留下的更加寬廣的發(fā)展空間正是向深度發(fā)展的行業(yè)主題搜索引擎。
二、 建設(shè)行業(yè)主題搜索引擎的可行性
到目前為止,國(guó)內(nèi)還沒有被廣泛認(rèn)可的專注于行業(yè)的專業(yè)搜索引擎。而行業(yè)所具有的從業(yè)人員多、廠商多、產(chǎn)品多、專業(yè)化程度高、知識(shí)更新快等特點(diǎn),決定了該行業(yè)對(duì)互聯(lián)網(wǎng)的依賴程度高,從業(yè)人員需要通過互聯(lián)網(wǎng)獲取各種專業(yè)知識(shí)、專業(yè)信息,用戶需要通過互聯(lián)網(wǎng)享受各種服務(wù)。
符合互聯(lián)網(wǎng)發(fā)展方向—互聯(lián)網(wǎng)正快速的從“內(nèi)容”朝著“搜索”的方向發(fā)展,網(wǎng)站本身的體系結(jié)構(gòu)也逐步的從內(nèi)容為主、搜索為輔向搜索為主、內(nèi)容為輔過渡;
相關(guān)技術(shù)基本成熟—在建設(shè)行業(yè)搜索引擎的第一階段,我們建議盡量采用成熟技術(shù),減少技術(shù)風(fēng)險(xiǎn)。搜索引擎開發(fā)建設(shè)中涉及到網(wǎng)頁蜘蛛、關(guān)鍵詞管理、目錄分類、索引排序、信息檢索等技術(shù);
建設(shè)速度快—采用元搜索與目錄搜索混合技術(shù)方案,能大大加快系統(tǒng)建設(shè)速度。包括軟件開發(fā)調(diào)試、行業(yè)關(guān)鍵詞庫(kù)建設(shè)和行業(yè)目錄分類庫(kù)建設(shè)等工作,預(yù)計(jì)六個(gè)自然月能完成全部軟件和調(diào)試工作;
市場(chǎng)潛力大—行業(yè)涉及的設(shè)備廠商和增值服務(wù)廠商眾多,最終用戶量大,因此未來的市場(chǎng)潛力巨大。因行業(yè)從業(yè)人員和其最終用戶對(duì)互聯(lián)網(wǎng)(信息)的依賴較大,因此,行業(yè)搜索引擎的開發(fā)建設(shè),能大幅提高網(wǎng)站的人氣和網(wǎng)站訪問流量;
投資風(fēng)險(xiǎn)小—可采用分階段投資、滾動(dòng)開發(fā)的模式,也可采用合作開發(fā)運(yùn)營(yíng)的模式,能有效的降低投資風(fēng)險(xiǎn)。
三、 行業(yè)主題搜索引擎建設(shè)的關(guān)鍵技術(shù)
開發(fā)、建設(shè)行業(yè)主題搜索引擎涉及到多項(xiàng)復(fù)雜的計(jì)算機(jī)技術(shù),包括網(wǎng)絡(luò)技術(shù)、分布式處理技術(shù)、多文字解析處理技術(shù)等。
科學(xué)準(zhǔn)確的行業(yè)主題關(guān)鍵詞庫(kù)—關(guān)鍵詞庫(kù)建立的好壞,在一定程度上決定了該行業(yè)搜索引擎的成敗。索引庫(kù)的建立、中文目標(biāo)詞的切分等都依賴于關(guān)鍵詞庫(kù)。關(guān)鍵詞庫(kù)的規(guī)模與準(zhǔn)確性,直接決定搜索服務(wù)的精準(zhǔn)和全面(限定范圍的全!);
重點(diǎn)突出的網(wǎng)站目錄集合—在有限資源投入的前提下,必須限定網(wǎng)絡(luò)蜘蛛的搜索范圍,從而保證信息的質(zhì)量,并做到及時(shí)更新;
高效的元搜索引擎技術(shù)—為彌補(bǔ)有限范圍搜索的不足,采用元搜索技術(shù),直接其它搜索引擎中抓取信息,并進(jìn)行必要的分析、過濾、排序處理,存入索引數(shù)據(jù)庫(kù)。元搜索引擎中采用先進(jìn)的數(shù)據(jù)排序、匹配算法,剔除重復(fù)數(shù)據(jù);
快速實(shí)用的信息檢索算法—采用合理切分、分布檢索技術(shù),保證檢索的快速準(zhǔn)確;
模塊化、分布式體系結(jié)構(gòu)—整個(gè)應(yīng)用軟件由定向信息采集模塊、目錄網(wǎng)站信息采集模塊(蜘蛛程序)、信息分類處理與索引模塊、檢索信息分析模塊、模式匹配處理模塊、查詢結(jié)果輸出處理模塊等組成。關(guān)鍵模塊均支持分布式處理。