免费视频淫片aa毛片_日韩高清在线亚洲专区vr_日韩大片免费观看视频播放_亚洲欧美国产精品完整版

打開(kāi)APP
userphoto
未登錄

開(kāi)通VIP,暢享免費(fèi)電子書(shū)等14項(xiàng)超值服

開(kāi)通VIP
我們索引這么數(shù)據(jù)做什么用? - 關(guān)于RSS搜索引擎發(fā)展的思考

我們索引這么數(shù)據(jù)做什么用? - 關(guān)于RSS搜索引擎發(fā)展的思考 (2)

July 3rd, 2005

FeedSearch很快就索引了上百萬(wàn)的RSS文章數(shù)據(jù),但很快我就困惑了。 索引了這么多的數(shù)據(jù)做什么用呢?從每天的access_log上看,F(xiàn)eedSearch每天是有一定流量的搜索,尤其在你知道自己想要讀哪方面的Blog文章,而又忘了地址的時(shí)候,這非常有用!在FeedSearch上輸入殘存記憶中的關(guān)鍵字,Click! 馬上FeedSearch就會(huì)為你找到你想要的。

另外,我還看到一些朋友利用RSS閱讀器來(lái)訂閱FeedSearch的搜索結(jié)果,比如有人對(duì)SNS感興趣,可以在FeedSearch上搜索出結(jié)果,同時(shí)FeedSearch也提供了搜索結(jié)果的RSS輸出,這樣,利用FeedSearch的搜索功能 + RSS閱讀器就可以訂閱類似Google新聞這樣的Blog新鮮信息了。

但我覺(jué)得這都不夠。因?yàn)镽SS文章更新非??焖伲苍S10天前的文章就已經(jīng)被淹沒(méi)在長(zhǎng)長(zhǎng)的搜索結(jié)果中了。而10天前的信息并不一定就沒(méi)有今天的信息有價(jià)值。如何發(fā)現(xiàn)這些浩瀚的信息中的精華并整理,重新展現(xiàn)給用戶呢?

我做了兩個(gè)方面的嘗試:

1、FeedSearch精華版

將每日精華的文章提取出來(lái),集中展現(xiàn)出來(lái)供用戶瀏覽。

2、RSSOnline在線瀏覽

RSS搜索引擎是對(duì)RSS信息進(jìn)行整理和利用的一種方式,其它應(yīng)該還有很多種方式。現(xiàn)在涌現(xiàn)出的很多新興的模式都是對(duì)RSS信息不同方面的信息重新組織而已。和信息索引相對(duì),另外一個(gè)更加重要的就是信息瀏覽。所以RSSOnline作為FeedSearch的一個(gè)補(bǔ)充就這樣誕生了。

雖然RSSOnline是我對(duì)RSS搜索的一個(gè)補(bǔ)充嘗試,但從實(shí)際運(yùn)行的情況看,RSSOnline要比FeedSearch訪問(wèn)的人更多。其實(shí)事實(shí)也應(yīng)該是這樣。因?yàn)槁o(wú)目的瀏覽的人要遠(yuǎn)比自己知道要些什么的人要多。網(wǎng)絡(luò)并不僅僅是一個(gè)查閱信息的工具,網(wǎng)絡(luò)更是一個(gè)精神娛樂(lè)、休閑的地方。

早在2005-1-30,大郎就在他的“網(wǎng)絡(luò)營(yíng)銷觀察”對(duì)FeedSearch和RSSOnline的模式進(jìn)行了分析。文章鏈接:RSS搜索引擎如何發(fā)展?[續(xù)]從feedsearch.net和rssonline.net說(shuō)起

我們索引這么數(shù)據(jù)做什么用?- 關(guān)于RSS搜索引擎發(fā)展的思考 (1)

June 28th, 2005

現(xiàn)在的RSS搜索引擎已經(jīng)很多了,國(guó)內(nèi)知名的有GrassLand8Fang、FeedSS等,并且還有不斷涌現(xiàn)之勢(shì)。非常有意思的是,幾乎和在我迸發(fā)靈感的那個(gè)早晨同時(shí),8fang和FeedSS同時(shí)蹦了出來(lái),哪個(gè)推出的更早,現(xiàn)在也無(wú)從考證。但zheng在他的Blog中說(shuō)“好像約好了似的”,Zheng一直致力于Blog on Blog,相信他有這種感覺(jué),那么應(yīng)該也和事實(shí)查不多少吧。

曾經(jīng),幾家RSS搜索引擎都在迅速擴(kuò)充Feeds數(shù)量,F(xiàn)eedSearch在剛剛推出時(shí)使用爬蟲(chóng)搜索了幾個(gè)大的BSP,抓取了大約3000個(gè)Feeds,最高時(shí)也僅收錄了10000個(gè)Feeds。經(jīng)過(guò)短暫的擴(kuò)充期,其后不但沒(méi)有再繼續(xù)進(jìn)行大規(guī)模的自動(dòng)擴(kuò)充,而是完全依靠Blogger自己的Feed提交,還對(duì)一些沉默F(xiàn)eeds進(jìn)行了多次清理?,F(xiàn)在基本穩(wěn)定在5000個(gè)Feeds左右。有如下幾方面的考慮:

  1. FeedSearch的機(jī)器資源有限,我們不可能像Feedster哪樣把Feeds數(shù)量增加到百萬(wàn)、千萬(wàn)級(jí)
  2. 即便僅抓取5000個(gè)Feeds左右,當(dāng)前抓到的文章就輕松突破百萬(wàn)篇,并且由于Feed更新很快,抓取頻率也很快。搜索時(shí)很快幾天前抓取到的數(shù)據(jù)就到了數(shù)頁(yè)之后,變成了沉默信息。而新的信息未必就比老的信息有價(jià)值。如果不能找出一種信息的自動(dòng)評(píng)價(jià)機(jī)制,再多的信息又有什么用處?不幸的是,現(xiàn)在的大多RSS搜索引擎都沒(méi)有類似Google的PageRank的機(jī)制來(lái)對(duì)結(jié)果進(jìn)行評(píng)判和優(yōu)化。
  3. 如果一個(gè)Blogger愿意花費(fèi)幾秒鐘甚至幾分鐘在FeedSearch上登記,那么,有理由相信這個(gè)Blogger對(duì)自己的Feed還是比較重視的,我姑且武斷地認(rèn)為這比使用爬蟲(chóng)抓過(guò)來(lái)的成千上萬(wàn)的Feed有價(jià)值。

所以FeedSearch自推出后經(jīng)過(guò)短暫的大規(guī)模自動(dòng)收錄外,再?zèng)]有進(jìn)行過(guò)大規(guī)模的擴(kuò)充。令人欣慰的是,現(xiàn)在FeedSearch每天都有幾個(gè)Blogger來(lái)登記自己的Feed。雖然這是一個(gè)偷懶的辦法,但這也是FeedSearch的搜索結(jié)果可能比其它RSS搜索引擎更加有價(jià)值的原因。

姑且如此吧,在找到可以應(yīng)用于Blog文章評(píng)價(jià)的類似PageRank技術(shù)之前,暫時(shí)我還沒(méi)有對(duì)Feeds進(jìn)行大規(guī)模的擴(kuò)充的計(jì)劃。

關(guān)于FeedSearch.net的閑話

June 28th, 2005

FeedSearch是我半年前一時(shí)之興,做起來(lái)的。當(dāng)時(shí)國(guó)內(nèi)的RSS搜索引擎還沒(méi)有現(xiàn)在這么多,國(guó)外的我僅使用過(guò)Feedster,但當(dāng)時(shí)Feedster收錄的中文的Blog資源還很少,所以,就在想為什么不自己做一個(gè)?

RSS搜索引擎遠(yuǎn)比網(wǎng)頁(yè)搜索引擎來(lái)得簡(jiǎn)單,因?yàn)镽SS本身是格式化的數(shù)據(jù),而網(wǎng)頁(yè)則完全是側(cè)重于展現(xiàn)。想從網(wǎng)頁(yè)上分析出一些數(shù)據(jù)遠(yuǎn)比想像的要困難。前段時(shí)間還有一個(gè)朋友問(wèn)我如何做一個(gè)工具去抓取網(wǎng)頁(yè)上的公司的聯(lián)系方式信息,呵呵,我也沒(méi)有好的建議送給她。其實(shí)她想要做的是人工智能,想像一個(gè)爬蟲(chóng)爬過(guò)格式千差萬(wàn)別的網(wǎng)頁(yè),并且能夠分辨出哪些信息是聯(lián)系方式信息。而RSS則完全不同,所以FeedSearch僅僅花費(fèi)了我一個(gè)周末的時(shí)間就上線了。這當(dāng)然要感謝車東的開(kāi)源的WebLucene的幫助,WebLucene本身搜索部分已經(jīng)做的相當(dāng)不錯(cuò)了,這個(gè)我可以直接拿來(lái)使用,而Weblucene是需要周期性地從數(shù)據(jù)庫(kù)的數(shù)據(jù)導(dǎo)出到一個(gè)XML文件,再?gòu)倪@個(gè)無(wú)比巨大的XML中讀取數(shù)據(jù)進(jìn)行索引。這一點(diǎn)我沒(méi)有采用。因?yàn)槲倚枰狥eedSearch是實(shí)時(shí)的,或者基本是實(shí)時(shí)的。所以,我自己編寫(xiě)了RSS的解析器、Timer,并根據(jù)對(duì)不同的Feed的活躍度的評(píng)價(jià)更新頻率從5分鐘到72小時(shí)不等。使FeedSearch有了比較好的實(shí)時(shí)性。

更好的實(shí)時(shí)性,這是RSS搜索引擎相比較傳統(tǒng)的Web搜索的優(yōu)勢(shì)。當(dāng)然,RSS搜索引擎還可以對(duì)搜索結(jié)果進(jìn)行更好的規(guī)整并獲取更加準(zhǔn)確的其它有用信息,并重新輸出。這也是傳統(tǒng)Web搜索引擎所沒(méi)有的功能。

雖然RSS搜索永遠(yuǎn)不會(huì)達(dá)到像Web搜索那樣的市場(chǎng)和普及,但他終究有自己存在的價(jià)值。大者恒大固然不錯(cuò),但小者并不一定就因此失去意義?;ヂ?lián)網(wǎng)的細(xì)分化趨勢(shì)已經(jīng)非常明顯,這也是一個(gè)不爭(zhēng)的事實(shí)。

本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)
打開(kāi)APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
google reader一鍵訂閱
IT偏見(jiàn)錄 | 陳佼的blog: 我為什么要拋棄RSS閱讀工具
安裝wordpress之后應(yīng)該做的25件事(2)
Doug Cutting 訪談錄 -- 關(guān)于搜索引擎的開(kāi)發(fā) - Dedian - Blog...
Wordpress針對(duì)百度的優(yōu)化方案
如何打造自己的RSS feed
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服