欧美性一区二区三区五区,久久99久久99精品,欧美丝袜一区二区三区

初識(shí)Elastic search—附《Elasticsearch權(quán)威指南—官方guide的譯文》

2022.03.10

本文作為Elastic search系列的開篇之作，簡(jiǎn)要介紹其簡(jiǎn)要?dú)v史、安裝及基本概念和核心模塊。

簡(jiǎn)史

Elastic search基于Lucene（信息檢索引擎，ES里一個(gè)index—索引，一個(gè)索引指向一個(gè)或者多個(gè)分片—shards，一個(gè)分片就是一個(gè)Lucene實(shí)例。Lucene的作者——Doug Cutting同是也是hadoop的作者）。

ES的誕生于04年，Shay Banon——據(jù)傳剛失業(yè)又新婚，禍不單行（港蓉蒸蛋糕，蒸的嗎），在Lucene的基礎(chǔ)上為他去倫敦學(xué)廚師的老婆做的食譜搜索。一不小心，搞出了ES，然而老婆大人的食譜搜索卻遙遙無期，估計(jì)Shay在家鍵盤跪爛。

然后呢，官網(wǎng)出了個(gè)Kibana (ELK—Elasticsearch, logstash, kibana三劍客之一，另外Elastic認(rèn)證了解一下——截止目前國(guó)內(nèi)考過的不足500人），一個(gè)web應(yīng)用程序，用圖表啊、地圖啊等面板來可視化數(shù)據(jù)（圖像天然具有親和力，詳見 Guide， 初步的安裝及說明詳見附錄5），如下圖:

安裝

windows上安裝Elastic search 請(qǐng)參考附注2 鏈接（需要安裝IK分詞器，以更好的支持漢語分詞；安裝elasticsearch-head ，簡(jiǎn)單的可視化的web客戶端，可支持基本的查詢操作或者通過DSL檢索結(jié)果——為支持它，需要裝Node.js; node.js 又需要集成 npm 和 grunt）

elasticsearch-head 效果如下圖：

核心概念

Elastic Search是一個(gè)實(shí)時(shí)分布式搜索和分析引擎，處理大數(shù)據(jù)相當(dāng)?shù)纳瞄L(zhǎng)。Stackoverflow、Github、Wiki以及英國(guó)衛(wèi)報(bào)等在全文檢索、代碼搜索（Github超過1300億行）、地理位置查詢、社交網(wǎng)絡(luò)實(shí)時(shí)數(shù)據(jù)等領(lǐng)域均廣泛深入的使用了ES，國(guó)內(nèi)的字節(jié)跳動(dòng)、騰訊、阿里、百度均有相關(guān)應(yīng)用。目前認(rèn)為其核心概念包括：

Score

就是根據(jù)一套規(guī)則和算法，滿足搜索條件的文檔，其中相關(guān)信息的匹配度（或稱之為相關(guān)度），打分越高，則匹配度越高，搜索結(jié)果按打分高低（匹配度）倒敘展示。如下圖的一個(gè)搜索結(jié)果：

具體的Score，涉及到Norm（歸一化）和Boost（可以設(shè)置field和document的Boot—相當(dāng)于權(quán)重的概念）

集群（Cluster）、節(jié)點(diǎn)（Node）和分片（shards）

集群即多臺(tái)物理機(jī)構(gòu)成，每個(gè)物理機(jī)包含多個(gè)節(jié)點(diǎn)（其中只有一個(gè)Master Node），每個(gè)節(jié)點(diǎn)包含多個(gè)分片，每個(gè)分片可以有0個(gè)或多個(gè)復(fù)制分片做必要的數(shù)據(jù)冗余。其分布式特性，通過底層的如下操作自動(dòng)完成：

（1）將你的文檔分區(qū)到不同的容器或者分片(shards)中，它們可以存在于一個(gè)或多個(gè)節(jié)點(diǎn)中。

（2）將分片均勻的分配到各個(gè)節(jié)點(diǎn)，對(duì)索引和搜索做負(fù)載均衡。冗余每一個(gè)分片，防止硬件故障造成的數(shù)據(jù)丟失。

（3）將集群中任意一個(gè)節(jié)點(diǎn)上的請(qǐng)求路由到相應(yīng)數(shù)據(jù)所在的節(jié)點(diǎn)。

（4）無論是增加節(jié)點(diǎn)，還是移除節(jié)點(diǎn)，分片都可以做到無縫的擴(kuò)展和遷移。

索引（Index）

Elastic Search使用倒排索引（Inverted Index）來做快速的全文搜索（不同于一般數(shù)據(jù)庫(kù)的索引，用B-Tree來實(shí)現(xiàn)）。具體倒排索引原理，可能需要單獨(dú)的一篇博客來說明

分詞（analysis）

分析(analysis)是這樣一個(gè)過程：

（1）首先，表征化一個(gè)文本塊為適用于倒排索引單獨(dú)的詞(term)

（2）然后標(biāo)準(zhǔn)化這些詞為標(biāo)準(zhǔn)形式，提高它們的“可搜索性”或“查全率”

這個(gè)工作是分析器(analyzer)完成的。一個(gè)分析器(analyzer)包含如下三個(gè)功能：

　　（1）字符過濾器

　　首先字符串經(jīng)過字符過濾器(character filter)，它們的工作是在表征化（譯者注：這個(gè)詞叫做斷詞更合適）前處理字符串。字符過濾器能夠去除HTML標(biāo)記，或者轉(zhuǎn)換 "&" 為 "and" 。

　　（2）分詞器

　　下一步，分詞器(tokenizer)被表征化（斷詞）為獨(dú)立的詞。一個(gè)簡(jiǎn)單的分詞器(tokenizer)可以根據(jù)空格或逗號(hào)將單詞分開（譯者注：這個(gè)在中文中不適用）。

　　（3）表征過濾

　　最后，每個(gè)詞都通過所有表征過濾(token filters)，它可以修改詞（例如將 "Quick" 轉(zhuǎn)為小寫），去掉詞（例如停用詞像 "a" 、 "and"``"the" 等等），或者增加詞（例如同義詞像 "jump" 和 "leap" ）

字段共享

ES本質(zhì)上和關(guān)系型數(shù)據(jù)庫(kù)還是有差別，并不能和DB的各個(gè)概念完全對(duì)應(yīng)。默認(rèn)同名的Fields在整個(gè)Indices共享，因此你不能在Type里定義同名的多個(gè)Filelds，導(dǎo)致刪除數(shù)據(jù)只能整個(gè)索引一起刪除，而不能單單刪除一個(gè)Type

基礎(chǔ)知識(shí)

文檔

Elastic search是面向文檔的，文檔歸屬于一種類型（type），而這些type存在（索引）index里。傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)和ES的簡(jiǎn)單對(duì)比如下圖（6.0版本后默認(rèn)支持single type，涉及字段共享的優(yōu)化）：

Relational DB	Databases	Tables	Rows	Columns
ElasticSearch	Indices	Types	Documents	Fields

　　 2.檢索文檔

支持HTTP的GET、PUT、HEAD、DELETE（由于字段共享等原因，ES目前不支持刪除表，只能整個(gè)索引一起刪除）、POST操作，如下圖（故可直接用postman、SoapUI、Chrome插件ElasticSearch Head 等工具發(fā)http請(qǐng)求來查詢文檔）：

ES提供豐富靈活的查詢語句（另外Elasticsearch-sql插件可以自動(dòng)將sql語句翻譯為DSL）——Query DSL（基本的語法有filter,bool—包括should【類似于Or】、must【類似于and】, term—精確匹配, match，range,exists,missing等），有了它構(gòu)建復(fù)雜、強(qiáng)大的查詢都不事兒，如下圖（用postman，查詢 age > 30 且 last_name = "smith"）：

　 3. 字段數(shù)據(jù)類型

官方文檔：Mapping types (Mapping——映射，相當(dāng)于關(guān)系數(shù)據(jù)庫(kù)的表結(jié)構(gòu)定義）

核心數(shù)據(jù)類型 (只列工作中常用的）：

Data Types	Values
String	text, keyword
數(shù)值類型（Numberic dataTypes）	long, integer, short, byte, double, float
日期類型	date
布爾類型	boolean
范圍類型	integer_range, float_range, long_range, double_range, date_range
二進(jìn)制類型	binary

復(fù)雜數(shù)據(jù)類型

Data Types	Values
數(shù)組類型	不需要特殊的數(shù)據(jù)類型支持
Object type	object — 代表單個(gè)json
嵌套類型	nested — 代表一組json

地理相關(guān)的數(shù)據(jù)類型

Data Types	Values
坐標(biāo)點(diǎn)類型	geo_point用來表征經(jīng)緯度
地理圖形類型	geo_shape用來表征復(fù)雜的形狀，如多邊形

專門的數(shù)據(jù)類型

Data Types	Values
IP類型	ip — 用于IPv4和IPv6(項(xiàng)目中高頻使用）
token數(shù)量類型	token_count — 統(tǒng)計(jì)字符串中token的數(shù)量

尾聲

（1）ES不支持Join，但支持aggregations，類似于SQL的group by

（2）通過Merge segments可以提高查詢速度，最后Merge成的Segments個(gè)數(shù)越小，查詢時(shí)間提高的越快。Merge segments過程比較耗費(fèi)磁盤和CPU，所以建議凌晨執(zhí)行該操作

（3）ES支持將各種數(shù)據(jù)庫(kù)的數(shù)據(jù)導(dǎo)入，主要通過logstash;ES之間的數(shù)據(jù)拷貝，可以用elasticdump

致敬 Doug Cutting (Lucene、Nutch 、Hadoop之父)

談到成功，Cutting認(rèn)為他的成功主要?dú)w功于兩點(diǎn)：

對(duì)自己工作的熱情（Cutting在大學(xué)時(shí)就開始做Infrastracture類的程序，還用 Lisp為Emacs貢獻(xiàn)過代碼，他非常喜歡自己的程序被千萬人使用的感覺）
目標(biāo)不要定得過大，要踏踏實(shí)實(shí)，一步一個(gè)腳印

附：

1) 官網(wǎng)guide 及對(duì)應(yīng)中文版 — Elasticsearch: 權(quán)威指南（pdf下載）

2) Elasticsearch6.4.0-windows環(huán)境部署安裝

3) Linkin of Doug Cutting

4) Hadoop 十歲生日時(shí) Doug Cutting的講話

5) Kibana（一張圖片勝過千萬行日志）

*******************************************************************************

精力有限，想法太多，專注做好一件事就行

我只是一個(gè)程序猿。5年內(nèi)把代碼寫好，技術(shù)博客字字推敲，堅(jiān)持零拷貝和原創(chuàng)
寫博客的意義在于打磨文筆，訓(xùn)練邏輯條理性，加深對(duì)知識(shí)的系統(tǒng)性理解；如果恰好又對(duì)別人有點(diǎn)幫助，那真是一件令人開心的事

*******************************************************************************

本站僅提供存儲(chǔ)服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊舉報(bào)。

打開APP，閱讀全文并永久保存查看更多類似文章

〈四〉ElasticSearch的認(rèn)識(shí)：基礎(chǔ)原理的補(bǔ)充

干貨 | Elasticsearch 6個(gè)不明顯但很重要的注意事項(xiàng)

ElasticSearch使用

elasticsearch-重建索引，數(shù)據(jù)遷移

Elasticsearch調(diào)優(yōu)實(shí)踐

#研發(fā)解決方案介紹#基于ES的搜索+篩選+排序解決方案

更多類似文章 >>

免费视频淫片aa毛片_日韩高清在线亚洲专区vr_日韩大片免费观看视频播放_亚洲欧美国产精品完整版