免费视频淫片aa毛片_日韩高清在线亚洲专区vr_日韩大片免费观看视频播放_亚洲欧美国产精品完整版

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
網(wǎng)絡(luò)蜘蛛,搜索引擎/網(wǎng)絡(luò)蜘蛛程序代碼 瘋狂代碼!

搜索引擎/網(wǎng)絡(luò)蜘蛛程序代碼

國外開發(fā)的相關(guān)程序
1、Nutch

官方網(wǎng)站 http://www.nutch.org/
中文站點(diǎn) http://www.nutchchina.com/
最新版本:Nutch 0.7.2 Released
Nutch 是一個開源Java 實(shí)現(xiàn)的搜索引擎。它提供了我們運(yùn)行自己的搜索引擎所需的全部工具,可以建立自己內(nèi)部網(wǎng)的搜索引擎,也可以針對整個網(wǎng)絡(luò)建立搜索引擎。自由(Free)而免費(fèi)(Free)。
2、Lucene

官方網(wǎng)站  http://lucene.apache.org
中文站點(diǎn)  http://www.lucene.com.cn/
Lucene是apache軟件基金會jakarta項(xiàng)目組的一個子項(xiàng)目,是一個開放源代碼的全文檢索引擎工具包[用Java寫的],即它不是一個完整的全文檢索引擎,而是一個全文檢索引擎的架構(gòu),提供了完整的查詢引擎和索引引擎,部分文本分析引擎(英文與德文兩種西方語言)。Lucene的目的是為軟件開發(fā)人員提供一個簡單易用的工具包,以方便的在目標(biāo)系統(tǒng)中實(shí)現(xiàn)全文檢索的功能,或者是以此為基礎(chǔ)建立起完整的全文檢索引擎。
3、Larbin: http://larbin.sourceforge.net/index-eng.html
larbin是一種開源的網(wǎng)絡(luò)爬蟲/網(wǎng)絡(luò)蜘蛛,由法國的年輕人 Sébastien Ailleret獨(dú)立開發(fā)。larbin目的是能夠跟蹤頁面的url進(jìn)行擴(kuò)展的抓取,最后為搜索引擎提供廣泛的數(shù)據(jù)來源。
國內(nèi)開發(fā)的相關(guān)程序
1、SQLET - 開放源碼的中文搜索引擎
官方網(wǎng)站 http://www.sqlet.com/
SQLET,是Search & Query &Link, 加后綴let,表示小的,小型的意思.打算建立一個能搜上億張網(wǎng)頁的基于主題功能的中文搜索引擎.支持3種索引方式:MySql_table_Index,Lucene_Index,SQLET_Index.網(wǎng)頁抓取可以保存在文件系統(tǒng)及數(shù)據(jù)庫里。自帶WebServer.
2、菲度垂直搜索引擎代碼
菲度http://www.faydu.net 為一個垂直在線搜索的演示版,主要對國內(nèi)一些購物站點(diǎn)進(jìn)行搜索整理,
語言:VB.net(c#)
二、中文分詞程序代碼
1、計(jì)算所漢語詞法分析系統(tǒng) ICTCLAS
中國科學(xué)院計(jì)算技術(shù)研究所在多年研究基礎(chǔ)上,耗時一年研制出了基于多層隱馬模型的漢語詞法分析系統(tǒng) ICTCLAS(Institute ofComputing Technology, Chinese Lexical AnalysisSystem),該系統(tǒng)的功能有:中文分詞;詞性標(biāo)注;未登錄詞識別。分詞正確率高達(dá)97.58%(最近的973專家組評測結(jié)果),基于角色標(biāo)注的未登錄詞識別能取得高于90%召回率,其中中國人名的識別召回率接近98%,分詞和詞性標(biāo)注處理速度為31.5KB/s。ICTCLAS和計(jì)算所其他14項(xiàng)免費(fèi)發(fā)布的成果被中外媒體廣泛地報(bào)道,國內(nèi)很多免費(fèi)的中文分詞模塊都或多或少的參考過ICTCLAS的代碼。
下載頁面:http://www.nlp.org.cn/project/project.php?proj_id=6
由于 ICTCLAS 是由 C 語言寫成的,現(xiàn)在主流的開發(fā)工具用起來不太方便,于是有一些熱心的程序員把 ICTCLAS 改為 Java 和 C# 等其他語言。
(1)fenci,Java 的 ICTCLAS,下載頁面:http://www.xml.org.cn/printpage.asp?BoardID=2&id=11502
(2)AutoSplit,另一個 Java 的 ICTCLAS,已經(jīng)找不到下載頁面,點(diǎn)擊本地下載
(3)小叮咚中文分詞,曾經(jīng)有下載頁面,現(xiàn)在找不到了。據(jù)作者介紹,從 ICTCLAS 中改進(jìn),有 Java,C# 和 C++ 三個版本,介紹頁面:http://www.donews.net/accesine
2、海量智能分詞研究版
海量智能計(jì)算技術(shù)研究中心為了使中文信息處理領(lǐng)域的研究者們能夠共同分享海量智能中心的研究成果,共同提高中文信息處理水平,特此發(fā)布《海量智能分詞研究版》,供專家、學(xué)者和愛好者進(jìn)行研究。
下載頁面:http://www.hylanda.com/cgi-bin/download/download.asp?id=8
3、其他
(1)CSW中文智能分詞組件
運(yùn)行環(huán)境:Windows NT、2000、XP 或更高,可以在 ASP,VB 等微軟的開發(fā)語言中調(diào)用。
簡介: CSW中文智能分詞DLL組件,可將一段文本自動的按常規(guī)漢語詞組進(jìn)行拆分,并以指定方式進(jìn)行分隔,且可對其拆分后的詞組進(jìn)行語義、詞頻標(biāo)注。其廣范應(yīng)用于各行各業(yè)的信息資料檢索、分析。
下載頁面:http://www.vgoogle.net/
(2) C# 寫的中文分詞組件
據(jù)作者介紹,一個 DLL 文件,可以做中英文分詞組件。完全C#托管代碼編寫,獨(dú)立開發(fā)。
下載頁面:http://www.rainsts.net/article.asp?id=48
三、開源spider一覽
spider是搜索引擎的必須模塊.spider數(shù)據(jù)的結(jié)果直接影響到搜索引擎的評價(jià)指標(biāo).
第一個spider程序由MIT的Matthew K Gray操刀該程序的目的是為了統(tǒng)計(jì)互聯(lián)網(wǎng)中主機(jī)的數(shù)目
Spier定義(關(guān)于Spider的定義,有廣義和狹義兩種).
  • 狹義:利用標(biāo)準(zhǔn)的http協(xié)議根據(jù)超鏈和web文檔檢索的方法遍歷萬維網(wǎng)信息空間的軟件程序.
  • 廣義:所有能利用http協(xié)議檢索web文檔的軟件都稱之為spider.
其中Protocol Gives Sites Way To Keep Out The 'Bots Jeremy Carl, Web Week,Volume 1, Issue 7, November 1995 是和spider息息相關(guān)的協(xié)議,大家有興趣參考robotstxt.org.
Heritrix
Heritrix is the Internet Archive's open-source, extensible, web-scale, archival-quality web crawler project.
Heritrix (sometimes spelled heretrix, or misspelled or missaid as heratrix/heritix/ heretix/heratix) is an archaic word for heiress (woman who inherits). Since our crawler seeks to collect and preserve the digital artifacts of our culture for the benefit of future researchers and generations, this name seemed apt.
語言:JAVA, (下載地址)
WebLech URL Spider
WebLechis a fully featured web site download/mirror tool in Java, whichsupports many features required to download websites and emulatestandard web-browser behaviour as much as possible. WebLech ismultithreaded and comes with a GUI console.
語言:JAVA, (下載地址)
JSpider
AJava implementation of a flexible and extensible web spider engine.Optional modules allow functionality to be added (searching dead links,testing the performance and scalability of a site, creating a sitemap,etc ..
語言:JAVA, (下載地址)
WebSPHINX
WebSPHINXis a web crawler (robot, spider) Java class library, originallydeveloped by Robert Miller of Carnegie Mellon University. Multithreaded,tollerant HTML parsing, URL filtering and page classification, patternmatching, mirroring, and more.
語言:JAVA, (下載地址)
PySolitaire
PySolitaire is a fork of PySol Solitaire that runs correctly _disibledevent=>語言
ython , (下載地址)
The Spider Web Network Xoops Mod Team    
TheSpider Web Network Xoops Module Team provides modules for the Xoopscommunity written in the PHP coding language. We develop mods and ortake existing php script and port it into the Xoops format. High qualitymods is our goal.
語言:php , (下載地址)
Fetchgals
Amulti-threaded web spider that finds free porn thumbnail galleries byvisiting a list of known TGPs (Thumbnail Gallery Posts). It optionallydownloads the located pictures and movies. TGP list is included. Publicdomain perl script running _disibledevent=>語言:perl , (下載地址)
Where Spider
Thepurpose of the Where Spider software is to provide a database systemfor storing URL addresses. The software is used for both ripping linksand browsing them offline. The software uses a pure XML database whichis easy to export and import.
語言:XML , (下載地址)
Sperowider WebsiteArchiving Suite is a set of Java applications, the primary purpose ofwhich is to spider dynamic websites, and to create static distributablearchives with a full text search index usable by an associated Javaapplet.
語言:Java , (下載地址)
SpiderPy is a web crawling spiderprogram written in Python that allows users to collect files and searchweb sites through a configurable interface.
語言
ython , (下載地址)
Spideris a complete standalone Java application designed to easily integratevaried datasources. * XML driven framework * Scheduled pulling * Highlyextensible * Provides hooks for custom post-processing and configuration
語言:Java , (下載地址)
WebLoupe is a java-based tool for analysis,interactive visualization (sitemap), and exploration of the informationarchitecture and specific properties of local or publicly accessiblewebsites. Based _disibledevent=>語言:java , (下載地址)
ASpider
Robustfeatureful multi-threaded CLI web spider using apache commonshttpclient v3.0 written in java. ASpider downloads any files matchingyour given mime-types from a website. Tries to reg.exp. match emails bydefault, logging all results using log4j.
語言:java , (下載地址)
larbin
Larbinis an HTTP Web crawler with an easy interface that runs under Linux. Itcan fetch more than 5 million pages a day _disibledevent=>下載地址)
webloupeSpidered Data RetrievalSpiderPySperowider
三、SEO相關(guān)資源
  1、域名信息查詢
★查詢國際頂級域名的信息(.aero, .arpa, .biz, .com, .coop, .edu, .info, .int,.museum, .net, .org),可以通過ICANN授權(quán)的域名注冊商來查詢,也可以直接到INTERNIC網(wǎng)站查詢,網(wǎng)址是
http://www.internic.com/whois.html
   http://www.iwhois.com/
★ 查詢?nèi)蚋鱾€地理頂級域名是否已經(jīng)被注冊可以到下列網(wǎng)址查詢(其中也包括國內(nèi)域名.cn):
http://www.uwhois.com/cgi/domains.cgi?User=NoAds
★ 查詢國內(nèi)域名的注冊情況,
http://ewhois.cnnic.net.cn/index.jsp
       ★ 萬網(wǎng)的域名注冊信息查詢
      http://www.net.cn/
       ★ IP地址查詢、域名注冊信息Whois查詢
   http://ip.zahuopu.com/
2、alexa相關(guān)與搜索排行榜
    ★ 中文排名500強(qiáng)
   http://www.alexa.com/site/ds/top_sites?ts_mode=lang&lang=zh_gb2312
    ★ Google Zeitgeist--Google搜索排行榜
   http://www.google.com/press/intl-zeitgeist.html#cn
    ★ 百度中文搜索風(fēng)云榜
   http://top.baidu.com/
★ 雅虎搜索排行榜
http://misc.yahoo.com.cn/top_index.html
★ 搜狗搜索指數(shù)
http://www.sogou.com/top/
3、搜索關(guān)鍵詞查詢
★ google關(guān)鍵字查詢 https://adwords.google.com/select/KeywordSandbox
★ 百度關(guān)鍵字查詢 http://www2.baidu.com/inquire/dsquery.php
★ 搜狐關(guān)鍵詞 http://db.sohu.com/regurl/pv_price/query_consumer.asp
4、seo項(xiàng)目/工具
★網(wǎng)頁質(zhì)量 http://category.booso.com/cgi-bin/category/category.cgi
★關(guān)鍵詞密度 http://www.21ql.com/seo/keyword.asp
★搜索引擎蜘蛛模擬器  http://www.webconfs.com/search-engine-spider-simulator.php
★Google Dance查詢工具:http://www.google-dance-tool.com/
5、seo網(wǎng)站
  英文網(wǎng)站
搜索觀察  http://www.searchenginewatch.com/
seochat http://www.seochat.com
中文網(wǎng)站
1>美國尚奇公司 http://www.zunch.cn
全球領(lǐng)先的網(wǎng)站設(shè)計(jì)和搜索引擎優(yōu)化服務(wù)公司 ,目前中國區(qū)負(fù)責(zé)人為--柳煥斌
尚奇博客社區(qū)  blog.zunch.cn

在這里可以獲取最新的SEO行業(yè)信息
2>搜索引擎優(yōu)化交流中心    http://www.seoonline.cn
SEO從業(yè)者網(wǎng)站
1>尚奇中國區(qū)負(fù)責(zé)人為--柳煥斌  http://blog.zunch.cn/category/robinliu/
2>seo專業(yè)人士--bianyue    http://www.bianyue.com/
本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊舉報(bào)。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
space: 搜索引擎學(xué)習(xí)資源收集
新站秒收的原因解析,看了這篇文章你就懂了!
多語言網(wǎng)站優(yōu)化
怎樣查詢一個IP綁了多少域名?(IP反查域名工具)
網(wǎng)頁制作 / 建站
網(wǎng)站改版或者網(wǎng)站內(nèi)重要頁面鏈接發(fā)生變動時,網(wǎng)站更換域名,301重定向 http://0732go.com
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服