免费视频淫片aa毛片_日韩高清在线亚洲专区vr_日韩大片免费观看视频播放_亚洲欧美国产精品完整版

打開(kāi)APP
userphoto
未登錄

開(kāi)通VIP,暢享免費(fèi)電子書(shū)等14項(xiàng)超值服

開(kāi)通VIP
大數(shù)據(jù)處理方面的 7 個(gè)開(kāi)源搜索引擎

大數(shù)據(jù)是一個(gè)包括一切的術(shù)語(yǔ),指的是數(shù)據(jù)集很大很復(fù)雜,他們需要特別設(shè)計(jì)的硬件和軟件工具。數(shù)據(jù)集通常是 T 或者更大級(jí)別。這些數(shù)據(jù)集從各種各樣的來(lái)源創(chuàng)建,包括傳感器,收集氣象信息,公開(kāi)可用的信息,如雜志、報(bào)紙、文章。還包括購(gòu)買交易記錄、網(wǎng)絡(luò)日志、醫(yī)療記錄、軍事偵察、視頻和圖像檔案和大規(guī)模的電子商務(wù)等等。

要分析這些數(shù)據(jù)需要專門(mén)的軟硬件,本文介紹 7 個(gè)開(kāi)源的搜索引擎適合用于大數(shù)據(jù)處理:

1. Apache Lucene

Lucene 是apache軟件基金會(huì)一個(gè)開(kāi)放源代碼的全文檢索引擎工具包,是一個(gè)全文檢索引擎的架構(gòu),提供了完整的查詢引擎和索引引擎,部分文本分析引擎。 Lucene的目的是為軟件開(kāi)發(fā)人員提供一個(gè)簡(jiǎn)單易用的工具包,以方便的在目標(biāo)系統(tǒng)中實(shí)現(xiàn)全文檢索的功能,或者是以此為基礎(chǔ)建立起完整的全文檢索引擎。

特性:

  • 索引過(guò)程:
    • 在現(xiàn)在流行的硬件平臺(tái)上每個(gè)小時(shí)可處理超過(guò) 150GB 的數(shù)據(jù)
    • 內(nèi)存占用小,只需 1MB 的堆內(nèi)存
    • 增量索引和批量索引速度一樣快
    • 索引大小約為文本索引的 20-30% 大小
    • 靜態(tài)索引修剪
  • 搜索算法:
    • 范圍搜索 – 優(yōu)先返回最佳結(jié)果
    • 很多強(qiáng)大的查詢類型:短語(yǔ)查詢、通配符查詢、近似查詢、范圍查詢等
    • 可單獨(dú)針對(duì)某個(gè)字段查詢
    • 可單獨(dú)根據(jù)某個(gè)字段排序
    • 多索引搜索并合并搜索結(jié)果
    • 允許同步更新索引和搜索
    • 靈活的門(mén)面搜索、高亮顯示、結(jié)果集的聯(lián)合和分組
    • 快速,低內(nèi)存占用和容錯(cuò)
    • 可插入式排名模型,包括 VSM 和 Okapi MB25
    • 可配置的存儲(chǔ)引擎
  • 跨平臺(tái)解決方案
    • 100% 純 Java
    • 其他語(yǔ)言提供索引兼容的實(shí)現(xiàn)

 

2. Apache Solr

Apache Solr (讀音: SOLer) 是一個(gè)開(kāi)源的搜索服務(wù)器。Solr 使用 Java 語(yǔ)言開(kāi)發(fā),主要基于 HTTP 和 Apache Lucene 實(shí)現(xiàn)。Apache Solr 中存儲(chǔ)的資源是以 Document 為對(duì)象進(jìn)行存儲(chǔ)的。每個(gè)文檔由一系列的 Field 構(gòu)成,每個(gè) Field 表示資源的一個(gè)屬性。Solr 中的每個(gè) Document 需要有能唯一標(biāo)識(shí)其自身的屬性,默認(rèn)情況下這個(gè)屬性的名字是 id,在 Schema 配置文件中使用:<uniqueKey>id</uniqueKey>進(jìn)行描述。

 

 

3. ElasticSearch

Elastic Search 是一個(gè)基于Lucene構(gòu)建的開(kāi)源,分布式,RESTful搜索引擎。設(shè)計(jì)用于云計(jì)算中,能夠達(dá)到實(shí)時(shí)搜索,穩(wěn)定,可靠,快速,安裝使用方便。支持通過(guò)HTTP使用JSON進(jìn)行數(shù)據(jù)索引。

 

4. Sphinx

Sphinx是一個(gè)基于SQL的全文檢索引擎,可以結(jié)合MySQL,PostgreSQL做全文搜索,它可以提供比數(shù)據(jù)庫(kù)本身更專業(yè)的搜索功能,使得應(yīng)用程序更容易實(shí)現(xiàn)專業(yè)化的全文檢索。Sphinx特別為一些腳本語(yǔ)言設(shè)計(jì)搜索API接口,如PHP,Python,Perl,Ruby等,同時(shí)為MySQL也設(shè)計(jì)了一個(gè)存儲(chǔ)引擎插件。

 

5. Xapian

Xapian是一個(gè)用C 編寫(xiě)的全文檢索程序,他的作用類似于Java的lucene。盡管在Java世界lucene已經(jīng)是標(biāo)準(zhǔn)的全文檢索程序,但是C/C 世界并沒(méi)有相應(yīng)的工具,而Xapian則填補(bǔ)了這個(gè)缺憾。

 

6. Nutch

Nutch 是一個(gè)開(kāi)源Java 實(shí)現(xiàn)的搜索引擎。它提供了我們運(yùn)行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬蟲(chóng)。

盡管Web搜索是漫游Internet的基本要求, 但是現(xiàn)有web搜索引擎的數(shù)目卻在下降. 并且這很有可能進(jìn)一步演變成為一個(gè)公司壟斷了幾乎所有的web搜索為其謀取商業(yè)利益.這顯然 不利于廣大Internet用戶.

Nutch為我們提供了這樣一個(gè)不同的選擇. 相對(duì)于那些商用的搜索引擎, Nutch作為開(kāi)放源代碼 搜索引擎將會(huì)更加透明, 從而更值得大家信賴. 現(xiàn)在所有主要的搜索引擎都采用私有的排序算法, 而不會(huì)解釋為什么一個(gè)網(wǎng)頁(yè)會(huì)排在一個(gè)特定的位置. 除此之外, 有的搜索引擎依照網(wǎng)站所付的 費(fèi)用, 而不是根據(jù)它們本身的價(jià)值進(jìn)行排序. 與它們不同, Nucth沒(méi)有什么需要隱瞞, 也沒(méi)有 動(dòng)機(jī)去扭曲搜索的結(jié)果. Nutch將盡自己最大的努力為用戶提供最好的搜索結(jié)果.

Nutch 致力于讓每個(gè)人能很容易, 同時(shí)花費(fèi)很少就可以配置世界一流的Web搜索引擎. 為了完成這一宏偉的目標(biāo), Nutch必須能夠做到:

  • 每個(gè)月取幾十億網(wǎng)頁(yè)
  • 為這些網(wǎng)頁(yè)維護(hù)一個(gè)索引
  • 對(duì)索引文件進(jìn)行每秒上千次的搜索
  • 提供高質(zhì)量的搜索結(jié)果
  • 以最小的成本運(yùn)作

 

7. LGTE

LGTE 是基于 Lucene 提供了擴(kuò)展 Lucene API 用于集成很多服務(wù),例如片段生成、查詢擴(kuò)展等等,并提供了一組單元測(cè)試。

特性包括:

  • 提供了簡(jiǎn)單和高效的 Lucene API 的抽象層
  • 在主題、時(shí)間和地理方面支持集成檢索和排序的依據(jù)
  • 支持 Lucene 標(biāo)準(zhǔn)的檢索模型,提供更高級(jí)的概率檢索方法
  • 支持 Rochio 查詢擴(kuò)展
  • 提供了用于 IR 仿真體驗(yàn)的框架 (例如處理 CLEF/TREC 主題)
  • 包含 trec_eval 工具的 Java 替換版
  • 包含一個(gè)簡(jiǎn)單的測(cè)試應(yīng)用,用來(lái)搜索 Braun Corpus 或 Cranfield Corpus
  • TREC/CLEF 仿真框架 – 集合索引的工具,運(yùn)行主題搜索并使用 treckeval 格式輸出結(jié)果
  • 使用不同文件夾提供隔離字段
  • 通過(guò)外鍵字段提供層次化的索引
  • 提供用于使用 Yahoo PlaceMaker 解析文檔的類

via linuxlinks

本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)。
打開(kāi)APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
一步一步學(xué)lucene——(第一步:概念篇)
13 款開(kāi)源的全文檢索引擎
Lucene和Solr 學(xué)習(xí)目錄
計(jì)算機(jī)世界網(wǎng)-周報(bào)全文
9個(gè)基于Java的搜索引擎框架
開(kāi)發(fā)者都應(yīng)該知道的開(kāi)源搜索引擎
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服