剛入行要低調(diào),懂不懂?低調(diào)!
——電影《瘋狂的石頭》
小伙伴們,大家好!
過完國慶節(jié),大家是不是還想繼續(xù)給祖國母親慶祝生日呢?
我:“誰說的?我就很愛工作,因為——”
又到了數(shù)說系列的環(huán)節(jié),從本期開始進入大數(shù)據(jù)的技術環(huán)節(jié)。
說到技術,很多人覺得晦澀難懂,但是今天我們要說的是圍繞技術的一些有關話題,技術細節(jié)本身并不多過多討論。
一大數(shù)據(jù)的定義
關于什么是“大數(shù)據(jù)”,業(yè)界至今還沒有一個統(tǒng)一的定義,但是其含義基本一致,例如:
研究機構Gartner給出了這樣的定義:大數(shù)據(jù)是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。
根據(jù)維基百科的定義:大數(shù)據(jù)是指無法在可承受的時間范圍內(nèi)用常規(guī)軟件工具進行捕捉、管理和處理的數(shù)據(jù)集合。
二大數(shù)據(jù)的特征
2001年麥塔集團(META Group)分析師萊尼在一份報告中對大數(shù)據(jù)提出了“3D數(shù)據(jù)管理”的觀點,即認為大數(shù)據(jù)將往高速、多樣、海量3個方向發(fā)展,提出了3個特性:高速性(Velocity)、多樣化(Variety)、規(guī)?;?Volume),統(tǒng)稱3V。
在萊尼的理論基礎上,國際數(shù)據(jù)公司(IDC)再加上了價值(Value)的維度,主要強調(diào)大數(shù)據(jù)的總體價值大,但價值密度低。于是,規(guī)模性(Volume)、多樣性(Varity)、高速性(Velocity)和價值性(Value),合稱大數(shù)據(jù)的“4V”, 4V也是廣受認可的大數(shù)據(jù)特性。
后來阿姆斯特丹大學又提出了大數(shù)據(jù)體系架構框架的5V特征:在原有4V基礎上增加了真實性(Veracity)特征,包括數(shù)據(jù)可信性、真?zhèn)涡?、來源和信譽、有效性和可審計性等特性。
大數(shù)據(jù)5V特征,引自《大數(shù)據(jù)標準化白皮書》
三大數(shù)據(jù)的起源
一般來說,人們通常認為大數(shù)據(jù)起源于谷歌公司發(fā)表的三篇論文。
2003–The Google File System
——闡述如何存儲大數(shù)據(jù)文件
2004–MapReduce:Simplified Data Processing on Large Clusters
——闡述如何處理大數(shù)據(jù)
2006–Bigtable:A Distributed Storage System for Structured Data
——闡述如何存儲結構化的大數(shù)據(jù)
但大數(shù)據(jù)技術中最為人熟知的,還是Hadoop。這里,就不得不提到Doug Cutting(道格·卡?。阮I導創(chuàng)立了Apache的項目Lucene,然后Lucene又衍生出子項目Nutch,Nutch又衍生了子項目Hadoop。Lucene是一個功能全面的文本搜索和查詢庫,Nutch目標就是要視圖以Lucene為核心建立一個完整的搜索引擎,并且能達到提到Google商業(yè)搜索引擎的目標。Doug Cutting看到了谷歌的論文的價值并帶領他的團隊便實現(xiàn)了這個框架,并將Nutch移植上去,于是Nutch的可擴展性得到極大的提高。后來Doug Cutting逐漸認識到急需要成立一個專門的項目來充實這上述技術,于是就誕生了Hadoop。
四Hadoop生態(tài)圈的壯大
最初Hadoop還不是很出名,用一句流行的話說,就是“非常低調(diào)”。但是2008年時,Hadoop贏得1TB排序基準評估第一名,在那次活動上,除了Cutting所在的雅虎公司參加外,F(xiàn)acebook、Linkin和Twitter的人也都出席了,因此引起了這些大公司的注意,后來越來越多的大型互聯(lián)網(wǎng)公司加入進來,形成了龐大的Hadoop生態(tài)圈。
Hadoop初期的生態(tài)圈
有些小伙伴可能注意到了,接下來的這張圖上的產(chǎn)品已經(jīng)不完全是Apache軟件基金會下的開源產(chǎn)品了。沒錯,隨著Hadoop的影響力越來越大,很多傳統(tǒng)軟件廠商,如Oracle、SAP、IBM等,也加強了對Hadoop的支持。
Hadoop最新的生態(tài)圈
五Hadoop的特點
讓我們回到Hadoop產(chǎn)品本身, Hadoop是一個能夠?qū)Υ罅繑?shù)據(jù)進行分布式處理的軟件框架,并且是以一種可靠、高效、可伸縮的方式進行處理的,它具有以下幾個方面的特性:
Hadoop的核心組件
Hadoop1.X版本包括Hadoop Distributed File System(分布式文件系統(tǒng),HDFS)和Hadoop MapReduce(分布式計算模型)兩個最重要的核心組件,它們?yōu)镠adoop用戶提供了系統(tǒng)底層細節(jié)透明的分布式基礎架構。
Hadoop 2.X及以上版本有加入了YARN(Yet Another Resource Negotiator,另一種資源協(xié)調(diào)者),它是一種新的 Hadoop 資源管理器,它是一個通用資源管理系統(tǒng),可為上層應用提供統(tǒng)一的資源管理和調(diào)度,它的引入為集群在利用率、資源統(tǒng)一管理和數(shù)據(jù)共享等方面帶來了巨大好處。
有了HDFS、MapReduce、YARN這三劍客的幫助,人們處理起巨大量的數(shù)據(jù)起來,猶如把大象塞進冰箱那么容易。
時間不早了,小編我又該敲(QU)代(BAN)碼(ZHUAN)了,欲知Hadoop內(nèi)部組件的工作原理,請期待《大話大數(shù)據(jù)技術之Hadoop》下集。
作者簡介
汪晉,某軟件公司數(shù)據(jù)業(yè)務部項目總監(jiān),曾先后在聯(lián)想集團、神華集團工作,長期從事數(shù)據(jù)倉庫、智能分析和大數(shù)據(jù)項目的建設,熟悉能源行業(yè)(煤炭、電力、化工)和制造行業(yè)。
END
熱門文章
數(shù)說 · 大數(shù)據(jù)項目建設誤區(qū)數(shù)說(之二)·談談大數(shù)據(jù)產(chǎn)品的選型數(shù)說(之三)· 數(shù)據(jù)指標體系建立和應用步驟探討我所經(jīng)歷的大數(shù)據(jù)平臺發(fā)展史(上篇)-非互聯(lián)網(wǎng)時代數(shù)據(jù)模型我所經(jīng)歷的大數(shù)據(jù)平臺發(fā)展史(上篇)-非互聯(lián)網(wǎng)時代數(shù)據(jù)平臺的發(fā)展我所經(jīng)歷的大數(shù)據(jù)平臺發(fā)展史(下篇)-互聯(lián)網(wǎng)時代數(shù)據(jù)模型我所經(jīng)歷的大數(shù)據(jù)平臺發(fā)展史(下篇)-互聯(lián)網(wǎng)時代數(shù)據(jù)平臺發(fā)展