琵琶妞在线国内精品视频,国产盗摄精品一区二区三区

Hbase關(guān)鍵的幾個點

2017.10.09

薦書進行時

架構(gòu)猶如探險，眼界必須超前(留言送書)

一. 什么時候需要HBase

1. 半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)

對于數(shù)據(jù)結(jié)構(gòu)字段不夠確定或雜亂無章很難按一個概念去進行抽取的數(shù)據(jù)適合用HBase。當(dāng)業(yè)務(wù)發(fā)展需要增加存儲比如一個用戶的email，phone，address信息時RDBMS需要停機維護，而HBase支持動態(tài)增加.

2. 記錄非常稀疏

RDBMS的行有多少列是固定的，為null的列浪費了存儲空間。而如上文提到的，HBase為null的Column不會被存儲，這樣既節(jié)省了空間又提高了讀性能。

3. 多版本數(shù)據(jù)

根據(jù)Row key和Column key定位到的Value可以有任意數(shù)量的版本值，因此對于需要存儲變動歷史記錄的數(shù)據(jù)，用HBase就非常方便了。對于某一值，業(yè)務(wù)上一般只需要最新的值，但有時可能需要查詢到歷史值。

4. 超大數(shù)據(jù)量

當(dāng)數(shù)據(jù)量越來越大，RDBMS數(shù)據(jù)庫撐不住了，就出現(xiàn)了讀寫分離策略，通過一個Master專門負(fù)責(zé)寫操作，多個Slave負(fù)責(zé)讀操作，服務(wù)器成本倍增。隨著壓力增加，Master撐不住了，這時就要分庫了，把關(guān)聯(lián)不大的數(shù)據(jù)分開部署，一些join查詢不能用了，需要借助中間層。隨著數(shù)據(jù)量的進一步增加，一個表的記錄越來越大，查詢就變得很慢，于是又得搞分表，比如按ID取模分成多個表以減少單個表的記錄數(shù)。經(jīng)歷過這些事的人都知道過程是多么的折騰。采用HBase就簡單了，只需要加機器即可，HBase會自動水平切分?jǐn)U展，跟Hadoop的無縫集成保障了其數(shù)據(jù)可靠性（HDFS）和海量數(shù)據(jù)分析的高性能（MapReduce）。

二. HTable一些基本概念

1. Row key

行主鍵， HBase不支持條件查詢和Order by等查詢，讀取記錄只能按Row key（及其range）或全表掃描，因此Row key需要根據(jù)業(yè)務(wù)來設(shè)計以利用其存儲排序特性（Table按Row key字典序排序如1,10,100,11,2）提高性能。

2. Column Family（列族）

在表創(chuàng)建時聲明，每個Column Family為一個存儲單元。

3. Column（列）

HBase的每個列都屬于一個列族，以列族名為前綴，如列article:title和article:content屬于article列族，author:name和author:nickname屬于author列族。

Column不用創(chuàng)建表時定義即可以動態(tài)新增，同一Column Family的Columns會群聚在一個存儲單元上，并依Column key排序，因此設(shè)計時應(yīng)將具有相同I/O特性的Column設(shè)計在一個Column Family上以提高性能。

4. Timestamp

HBase通過row和column確定一份數(shù)據(jù)，這份數(shù)據(jù)的值可能有多個版本，不同版本的值按照時間倒序排序，即最新的數(shù)據(jù)排在最前面，查詢時默認(rèn)返回最新版本。Timestamp默認(rèn)為系統(tǒng)當(dāng)前時間（精確到毫秒），也可以在寫入數(shù)據(jù)時指定該值。

5. Value

每個值通過4個鍵唯一索引，tableName+RowKey+ColumnKey+Timestamp=>value

6. 存儲類型