99久久一区,2021天堂在线亚洲精品专区,久久精品国产亚洲欧美

數(shù)說（之四）·大話大數(shù)據(jù)技術之Hadoop（上）

weiwarm >《大數(shù)據(jù)云》

2019.01.27

關注

剛入行要低調(diào)，懂不懂？低調(diào)！

——電影《瘋狂的石頭》

小伙伴們，大家好！

過完國慶節(jié)，大家是不是還想繼續(xù)給祖國母親慶祝生日呢？

我：“誰說的？我就很愛工作，因為——”

又到了數(shù)說系列的環(huán)節(jié)，從本期開始進入大數(shù)據(jù)的技術環(huán)節(jié)。

說到技術，很多人覺得晦澀難懂，但是今天我們要說的是圍繞技術的一些有關話題，技術細節(jié)本身并不多過多討論。

一大數(shù)據(jù)的定義

關于什么是“大數(shù)據(jù)”，業(yè)界至今還沒有一個統(tǒng)一的定義，但是其含義基本一致，例如：

研究機構Gartner給出了這樣的定義：大數(shù)據(jù)是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。

根據(jù)維基百科的定義：大數(shù)據(jù)是指無法在可承受的時間范圍內(nèi)用常規(guī)軟件工具進行捕捉、管理和處理的數(shù)據(jù)集合。

二大數(shù)據(jù)的特征

2001年麥塔集團(META Group)分析師萊尼在一份報告中對大數(shù)據(jù)提出了“3D數(shù)據(jù)管理”的觀點，即認為大數(shù)據(jù)將往高速、多樣、海量3個方向發(fā)展，提出了3個特性：高速性(Velocity)、多樣化(Variety)、規(guī)?；?Volume)，統(tǒng)稱3V。

在萊尼的理論基礎上，國際數(shù)據(jù)公司（IDC）再加上了價值（Value）的維度，主要強調(diào)大數(shù)據(jù)的總體價值大，但價值密度低。于是，規(guī)模性（Volume）、多樣性（Varity）、高速性（Velocity）和價值性（Value），合稱大數(shù)據(jù)的“4V”， 4V也是廣受認可的大數(shù)據(jù)特性。

后來阿姆斯特丹大學又提出了大數(shù)據(jù)體系架構框架的5V特征：在原有4V基礎上增加了真實性（Veracity）特征，包括數(shù)據(jù)可信性、真?zhèn)涡?、來源和信譽、有效性和可審計性等特性。

大數(shù)據(jù)5V特征，引自《大數(shù)據(jù)標準化白皮書》

三大數(shù)據(jù)的起源

一般來說，人們通常認為大數(shù)據(jù)起源于谷歌公司發(fā)表的三篇論文。

2003–The Google File System

——闡述如何存儲大數(shù)據(jù)文件

2004–MapReduce:Simplified Data Processing on Large Clusters

——闡述如何處理大數(shù)據(jù)

2006–Bigtable:A Distributed Storage System for Structured Data

——闡述如何存儲結構化的大數(shù)據(jù)

但大數(shù)據(jù)技術中最為人熟知的，還是Hadoop。這里，就不得不提到Doug Cutting（道格·卡?。阮I導創(chuàng)立了Apache的項目Lucene，然后Lucene又衍生出子項目Nutch，Nutch又衍生了子項目Hadoop。Lucene是一個功能全面的文本搜索和查詢庫，Nutch目標就是要視圖以Lucene為核心建立一個完整的搜索引擎，并且能達到提到Google商業(yè)搜索引擎的目標。Doug Cutting看到了谷歌的論文的價值并帶領他的團隊便實現(xiàn)了這個框架，并將Nutch移植上去，于是Nutch的可擴展性得到極大的提高。后來Doug Cutting逐漸認識到急需要成立一個專門的項目來充實這上述技術，于是就誕生了Hadoop。

四Hadoop生態(tài)圈的壯大

最初Hadoop還不是很出名，用一句流行的話說，就是“非常低調(diào)”。但是2008年時，Hadoop贏得1TB排序基準評估第一名，在那次活動上，除了Cutting所在的雅虎公司參加外，F(xiàn)acebook、Linkin和Twitter的人也都出席了，因此引起了這些大公司的注意，后來越來越多的大型互聯(lián)網(wǎng)公司加入進來，形成了龐大的Hadoop生態(tài)圈。

Hadoop初期的生態(tài)圈

有些小伙伴可能注意到了，接下來的這張圖上的產(chǎn)品已經(jīng)不完全是Apache軟件基金會下的開源產(chǎn)品了。沒錯，隨著Hadoop的影響力越來越大，很多傳統(tǒng)軟件廠商，如Oracle、SAP、IBM等，也加強了對Hadoop的支持。

Hadoop最新的生態(tài)圈

五Hadoop的特點

讓我們回到Hadoop產(chǎn)品本身， Hadoop是一個能夠?qū)Υ罅繑?shù)據(jù)進行分布式處理的軟件框架，并且是以一種可靠、高效、可伸縮的方式進行處理的，它具有以下幾個方面的特性：

Hadoop的核心組件

Hadoop1.X版本包括Hadoop Distributed File System（分布式文件系統(tǒng)，HDFS）和Hadoop MapReduce（分布式計算模型）兩個最重要的核心組件，它們?yōu)镠adoop用戶提供了系統(tǒng)底層細節(jié)透明的分布式基礎架構。

Hadoop 2.X及以上版本有加入了YARN（Yet Another Resource Negotiator，另一種資源協(xié)調(diào)者），它是一種新的 Hadoop 資源管理器，它是一個通用資源管理系統(tǒng)，可為上層應用提供統(tǒng)一的資源管理和調(diào)度，它的引入為集群在利用率、資源統(tǒng)一管理和數(shù)據(jù)共享等方面帶來了巨大好處。

有了HDFS、MapReduce、YARN這三劍客的幫助，人們處理起巨大量的數(shù)據(jù)起來，猶如把大象塞進冰箱那么容易。

時間不早了，小編我又該敲（QU）代（BAN）碼（ZHUAN）了，欲知Hadoop內(nèi)部組件的工作原理，請期待《大話大數(shù)據(jù)技術之Hadoop》下集。

作者簡介

汪晉，某軟件公司數(shù)據(jù)業(yè)務部項目總監(jiān)，曾先后在聯(lián)想集團、神華集團工作，長期從事數(shù)據(jù)倉庫、智能分析和大數(shù)據(jù)項目的建設，熟悉能源行業(yè)（煤炭、電力、化工）和制造行業(yè)。

END

免费视频淫片aa毛片_日韩高清在线亚洲专区vr_日韩大片免费观看视频播放_亚洲欧美国产精品完整版