免费视频淫片aa毛片_日韩高清在线亚洲专区vr_日韩大片免费观看视频播放_亚洲欧美国产精品完整版

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
Hbase學(xué)習(xí)與總結(jié)

一.Hbase簡(jiǎn)介:

     Hbase是bigtable的開源山寨版本。它利用HadoopHDFS作為其文件存儲(chǔ)系統(tǒng),利用Hadoop MapReduce來處理HBase中的海量數(shù)據(jù),利用Zookeeper作為協(xié)同服務(wù)。提供高可靠性、高性能、列存儲(chǔ)、可伸縮、實(shí)時(shí)讀寫的數(shù)據(jù)庫系統(tǒng)。

它介于nosql和RDBMS之間,僅能通過主鍵(row key)和主鍵的range來檢索數(shù)據(jù),僅支持單行事務(wù)(可通過hive支持來實(shí)現(xiàn)多表join等復(fù)雜操作)。主要用來存儲(chǔ)非結(jié)構(gòu)化和半結(jié)構(gòu)化的松散數(shù)據(jù)。

Pig和Hive還為HBase提供了高層語言支持,使得在HBase上進(jìn)行數(shù)據(jù)統(tǒng)計(jì)處理變的非常簡(jiǎn)單。 Sqoop則為HBase提供了方便的RDBMS數(shù)據(jù)導(dǎo)入功能,使得傳統(tǒng)數(shù)據(jù)庫數(shù)據(jù)向HBase中遷移變的非常方便。

與hadoop一樣,Hbase目標(biāo)主要依靠橫向擴(kuò)展,通過不斷增加廉價(jià)的商用服務(wù)器,來增加計(jì)算和存儲(chǔ)能力。

 二.HBase中的表一般有這樣的特點(diǎn):

1 大:一個(gè)表可以有上億行,上百萬列

2 面向列:面向列(族)的存儲(chǔ)和權(quán)限控制,列(族)獨(dú)立檢索。

3 稀疏:對(duì)于為空(null)的列,并不占用存儲(chǔ)空間,因此,表可以設(shè)計(jì)的非常稀疏。

三.HBase訪問接口:

1. Native Java API,最常規(guī)和高效的訪問方式,適合Hadoop MapReduce Job并行批處理HBase表數(shù)據(jù)

2. HBase Shell,HBase的命令行工具,最簡(jiǎn)單的接口,適合HBase管理使用

3. Thrift Gateway,利用Thrift序列化技術(shù),支持C++,PHP,Python等多種語言,適合其他異構(gòu)系統(tǒng)在線訪問HBase表數(shù)據(jù)

4. REST Gateway,支持REST 風(fēng)格的Http API訪問HBase, 解除了語言限制

5. Pig,可以使用PigLatin流式編程語言來操作HBase中的數(shù)據(jù),和Hive類似,本質(zhì)最終也是編譯成MapReduce Job來處理HBase表數(shù)據(jù),適合做數(shù)據(jù)統(tǒng)計(jì)

6. Hive,可以使用類似SQL語言來訪問HBase

四.Hbase表結(jié)構(gòu):


1.Row Key(行?。?/strong>

     用來檢索記錄主鍵,Table中的記錄按照Row Key排序。訪問hbasetable中的行,只有三種方式:1. 通過單個(gè)row key訪問;2.通過row key的range;3.全表掃描。

    Row key行鍵可以是任意字符串(最大長(zhǎng)度是 64KB,實(shí)際應(yīng)用中長(zhǎng)度一般為10-100bytes),在hbase內(nèi)部,row key保存為字節(jié)數(shù)組。

    存儲(chǔ)時(shí),數(shù)據(jù)按照Row key的字典序(byteorder)排序存儲(chǔ)。設(shè)計(jì)key時(shí),將經(jīng)常一起讀取的行存儲(chǔ)放到一起。

    字典序?qū)nt排序的結(jié)果是1,10,100,11,12,13,14,15,16,17,18,19,2,20,21,…,9,91,92,93,94,95,96,97,98,99。要保持整形的自然序,行鍵必須用0作左填充。

2.Timestamp(時(shí)間戳):

     每次數(shù)據(jù)操作對(duì)應(yīng)的時(shí)間戳,可以看作是數(shù)據(jù)的version number。

     HBase中通過row和columns確定的為一個(gè)存貯單元稱為cell。每個(gè) cell都保存著同一份數(shù)據(jù)的多個(gè)版本。版本通過時(shí)間戳來索引。時(shí)間戳的類型是 64位整型。時(shí)間戳可以由hbase(在數(shù)據(jù)寫入時(shí)自動(dòng) )賦值,此時(shí)時(shí)間戳是精確到毫秒的當(dāng)前系統(tǒng)時(shí)間。時(shí)間戳也可以由客戶顯式賦值。如果應(yīng)用程序要避免數(shù)據(jù)版本沖突,就必須自己生成具有唯一性的時(shí)間戳。每個(gè) cell中,不同版本的數(shù)據(jù)按照時(shí)間倒序排序,即最新的數(shù)據(jù)排在最前面。

     為了避免數(shù)據(jù)存在過多版本造成的的管理 (包括存貯和索引)負(fù)擔(dān),hbase提供了兩種數(shù)據(jù)版本回收方式。一是保存數(shù)據(jù)的最后n個(gè)版本,二是保存最近一段時(shí)間內(nèi)的版本(比如最近七天)。用戶可以針對(duì)每個(gè)列族進(jìn)行設(shè)置。

 3.Column Family(列族)

      hbase表中的每個(gè)列,都?xì)w屬與某個(gè)列族,Table在水平方向有一個(gè)或者多個(gè)ColumnFamily組成,一個(gè)Column Family中可以由任意多個(gè)Column組成,即Column Family支持動(dòng)態(tài)擴(kuò)展,列族必須在使用表之前定義。列名都以列族作為前綴。例如courses:history,courses:math都屬于courses這個(gè)列族。無需預(yù)先定義Column的數(shù)量以及類型,所有Column均以二進(jìn)制格式存儲(chǔ),用戶需要自行進(jìn)行類型轉(zhuǎn)換。

     訪問控制、磁盤和內(nèi)存的使用統(tǒng)計(jì)都是在列族層面進(jìn)行的。實(shí)際應(yīng)用中,列族上的控制權(quán)限能 幫助我們管理不同類型的應(yīng)用:我們?cè)试S一些應(yīng)用可以添加新的基本數(shù)據(jù)、一些應(yīng)用可以讀取基本數(shù)據(jù)并創(chuàng)建繼承的列族、一些應(yīng)用則只允許瀏覽數(shù)據(jù)(甚至可能因 為隱私的原因不能瀏覽所有數(shù)據(jù))。

4.Cell:

{row key, column(=<family> + <label>), version}唯一確定的單元。cell中的數(shù)據(jù)是沒有類型的,全部是字節(jié)碼形式存貯。

5.-ROOT- && .META.Table

HBase中有兩張?zhí)厥獾腡able,-ROOT-和.META.

.META.:記錄了用戶表的Region信息,.META.可以有多個(gè)regoin

-ROOT-:記錄了.META.表的Region信息,-ROOT-只有一個(gè)region

Zookeeper中記錄了-ROOT-表的location


三.物理存儲(chǔ):

1 Table中的所有行都按照rowkey的字典序排列。

2 Table 在行的方向上分割為多個(gè)Hregion。

 

3 region按大小分割的,每個(gè)表一開始只有一個(gè)region,隨著數(shù)據(jù)不斷插入表,region不斷增大,當(dāng)增大到一個(gè)閥值的時(shí)候,Hregion就會(huì)等分會(huì)兩個(gè)新的Hregion。當(dāng)table中的行不斷增多,就會(huì)有越來越多的Hregion。


4 Hregion是Hbase中分布式存儲(chǔ)和負(fù)載均衡的最小單元。最小單元就表示不同的Hregion可以分布在不同的HRegionserver上。但一個(gè)Hregion是不會(huì)拆分到多個(gè)server上的。


5 HRegion雖然是分布式存儲(chǔ)的最小單元,但并不是存儲(chǔ)的最小單元。

事實(shí)上,HRegion由一個(gè)或者多個(gè)Store組成,每個(gè)store保存一個(gè)columns family。

每個(gè)Strore又由一個(gè)memStore和0至多個(gè)StoreFile組成。如圖:

StoreFile以HFile格式保存在HDFS上。


五、系統(tǒng)架構(gòu)



Client:

  包含訪問hbase的接口,client維護(hù)著一些cache來加快對(duì)hbase的訪問,比如regione的位置信息。

Zookeeper

1 保證任何時(shí)候,集群中只有一個(gè)master

2 存貯所有Region的尋址入口。

3 實(shí)時(shí)監(jiān)控Region Server的狀態(tài),將Regionserver的上線和下線信息實(shí)時(shí)通知給Master

4 存儲(chǔ)Hbase的schema,包括有哪些table,每個(gè)table有哪些columnfamily

Master

1 為Region server分配region

2 負(fù)責(zé)region server的負(fù)載均衡

3 發(fā)現(xiàn)失效的region server并重新分配其上的region

4 GFS上的垃圾文件回收

5 處理schema更新請(qǐng)求

Region Server

1 Region server維護(hù)Master分配給它的region,處理對(duì)這些region的IO請(qǐng)求

2 Region server負(fù)責(zé)切分在運(yùn)行過程中變得過大的region

六.關(guān)鍵流程:

1.region定位:

  .META.是一個(gè)特殊的表,保存了hbase中所有數(shù)據(jù)表的region位置信息。


 root region永遠(yuǎn)不會(huì)被split,保證了最需要三次跳轉(zhuǎn),就能定位到任意region 。

.META.表每行保存一個(gè)region的位置信息,rowkey 采用表名+表的最后一樣編碼而成。

為了加快訪問,.META.表的全部region都保存在內(nèi)存中。

2.region分配

    任何時(shí)刻,一個(gè)region只能分配給一個(gè)region server。master記錄了當(dāng)前有哪些可用的region server。以及當(dāng)前哪些region分配給了哪些region server,哪些region還沒有分配。當(dāng)存在未分配的region,并且有一個(gè)region server上有可用空間時(shí),master就給這個(gè)region server發(fā)送一個(gè)裝載請(qǐng)求,把region分配給這個(gè)region server。regionserver得到請(qǐng)求后,就開始對(duì)此region提供服務(wù)。

3.region server上線

     master使用zookeeper來跟蹤regionserver狀態(tài)。當(dāng)某個(gè)region server啟動(dòng)時(shí),會(huì)首先在zookeeper上的server目錄下建立代表自己的文件,并獲得該文件的獨(dú)占鎖。由于master訂閱了server目錄上的變更消息,當(dāng)server目錄下的文件出現(xiàn)新增或刪除操作時(shí),master可以得到來自zookeeper的實(shí)時(shí)通知。因此一旦region server上線,master能馬上得到消息。

4.region server下線

     當(dāng)region server下線時(shí),它和zookeeper的會(huì)話斷開,zookeeper而自動(dòng)釋放代表這臺(tái)server的文件上的獨(dú)占鎖。而master不斷輪詢server目錄下文件的鎖狀態(tài)。如果master發(fā)現(xiàn)某個(gè)region server丟失了它自己的獨(dú)占鎖,(或者master連續(xù)幾次和region server通信都無法成功),master就是嘗試去獲取代表這個(gè)region server的讀寫鎖,一旦獲取成功,就可以確定:

1 )region server和zookeeper之間的網(wǎng)絡(luò)斷開了。

2 )region server掛了。

的其中一種情況發(fā)生了,無論哪種情況,region server都無法繼續(xù)為它的region提供服務(wù)了,此時(shí)master會(huì)刪除server目錄下代表這臺(tái)regionserver的文件,并將這臺(tái)region server的region分配給其它還活著的同志。

     如果網(wǎng)絡(luò)短暫出現(xiàn)問題導(dǎo)致region server丟失了它的鎖,那么regionserver重新連接到zookeeper之后,只要代表它的文件還在,它就會(huì)不斷嘗試獲取這個(gè)文件上的鎖,一旦獲取到了,就可以繼續(xù)提供服務(wù)。

5.master上線

master啟動(dòng)進(jìn)行以下步驟:

1) 從zookeeper上獲取唯一一個(gè)代碼master的鎖,用來阻止其它master成為master。

2 )掃描zookeeper上的server目錄,獲得當(dāng)前可用的region server列表。

3) 和2)中的每個(gè)regionserver通信,獲得當(dāng)前已分配的region和regionserver的對(duì)應(yīng)關(guān)系。

4 )掃描.META.region的集合,計(jì)算得到當(dāng)前還未分配的region,將他們放入待分配region列表。

6.master下線

      由于master只維護(hù)表和region的元數(shù)據(jù),而不參與表數(shù)據(jù)IO的過程,master下線僅導(dǎo)致所有元數(shù)據(jù)的修改被凍結(jié)(無法創(chuàng)建刪除表,無法修改表的schema,無法進(jìn)行region的負(fù)載均衡,無法處理region上下線,無法進(jìn)行region的合并,唯一例外的是region的split可以正常進(jìn)行,因?yàn)橹挥衦egionserver參與),表的數(shù)據(jù)讀寫還可以正常進(jìn)行。因此master下線短時(shí)間內(nèi)對(duì)整個(gè)hbase集群沒有影響。從上線過程可以看到,master保存的 信息全是可以冗余信息(都可以從系統(tǒng)其它地方收集到或者計(jì)算出來),因此,一般hbase集群中總是有一個(gè)master在提供服務(wù),還有一個(gè)以上 的’master’在等待時(shí)機(jī)搶占它的位置。

七.實(shí)戰(zhàn)練習(xí):

先啟動(dòng)hadoop,然后.啟動(dòng)hbase:jps查看,注意在master(即HMater)節(jié)點(diǎn)上有HMaster和HRegionServer、HQuorumPeer三個(gè)服務(wù)項(xiàng),在datanode(即HRegionServer)中查看需要啟動(dòng)的是HQuorumPeer和HRegionServer。

通過WEB查看hbase:

查看Master http://master:60010/master.jsp

查看Region Serverhttp://slave:60030/regionserver.jsp

查看ZK Tree http://master:60010/zk.jsp

以下面這個(gè)表格為例子,練習(xí)hbase shell命令


這里grad對(duì)于表來說是一個(gè)只有它自己的列族,course對(duì)于表來說是一個(gè)有兩個(gè)列的列族,這個(gè)列族由兩個(gè)列組成math和art,當(dāng)然我們可以根據(jù)我們的需要在course中建立更多的列族,如computer,physics等相應(yīng)的列添加入course列族。

hbase(main):001:0> create ‘scores','grade',‘course'

 put‘scores','Tom','grade:','5′
    put ‘scores','Tom','course:math','97′
    put ‘scores','Tom','course:art','87′
    put ‘scores','Jim','grade','4′
    put ‘scores','Jim','course:math','89′
    put ‘scores','Jim','course:art','80′

put命令比較簡(jiǎn)單,只有這一種用法:
hbase> put ‘t1′, ‘r1′, ‘c1′, ‘value', ts1
t1指表名,r1指行鍵名,c1指列名,value指單元格值。ts1指時(shí)間戳,一般都省略掉了。

根據(jù)鍵值查詢數(shù)據(jù):

hbase(main):013:0> get 'scores','Jim'

COLUMN                CELL                                                      

 course:art           timestamp=1371374709443,value=80                        

 course:math          timestamp=1371374691043,value=89                        

 grade:               timestamp=1371374659931, value=4                         

3row(s) in 0.0360 seconds


hbase(main):014:0> get 'scores','Jim','grade'

COLUMN                CELL                                                     

 grade:               timestamp=1371374659931,value=4                          

1row(s) in 0.0230 seconds

 

hbase(main):015:0> scan'scores'

ROW                   COLUMN+CELL                                        

 Jim                  column=course:art,timestamp=1371374709443, value=80     

 Jim                  column=course:math,timestamp=1371374691043, value=89    

 Jim                  column=grade:,timestamp=1371374659931, value=4          

 Tom                  column=course:art,timestamp=1371374627295, value=87     

 Tom                  column=course:math,timestamp=1371374609639, value=97    

 Tom                  column=grade:,timestamp=1371374578670, value=5          

2row(s) in 0.1150 seconds

刪除指定數(shù)據(jù)

delete scores','Jim','grade'

Deleteall score,Jim     //刪除整行

修改表結(jié)構(gòu)
disable ‘scores'
alter ‘scores',NAME=>'info'    //添加一個(gè)列族
enable ‘scores'
count
scores    //查詢表中有多少行



 


本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
生活服務(wù)
分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服