36大數(shù)據(jù)專稿,原文作者:Bernard Marr,本文由36大數(shù)據(jù)翻譯組:# include “cxuan.h”翻譯,轉(zhuǎn)載必須獲得本站及譯者的同意,拒絕任何不表明譯者及來源的轉(zhuǎn)載!
“大數(shù)據(jù)”作為一個術(shù)語的歷史可能還很短暫,但是它所依賴的很多基礎(chǔ)很久以前就建立了。
在我們今天認(rèn)識的計算機(jī)被普及很久以前,學(xué)術(shù)中對于分析不斷膨脹的知識體系的理念的建立是很普遍的。
我們不斷增強(qiáng)的存儲和分析信息能力的進(jìn)步有些緩慢,這或許不太容易發(fā)現(xiàn),然而上世紀(jì)末隨著數(shù)字存儲的發(fā)明和計算機(jī)網(wǎng)絡(luò)的誕生,這種能力才進(jìn)入了飛速發(fā)展的軌道。
在大數(shù)據(jù)逐漸成為主要趨勢的今天,讓我們簡要回顧下大數(shù)據(jù)時代黎明前關(guān)于思考和創(chuàng)新的漫長歷史吧。
你知道嗎?大數(shù)據(jù)歷史可以追溯到1887年
公元前18000年
最早關(guān)于人類記錄和分析數(shù)據(jù)的例子是 符木(ally sticks)。 伊尚戈骨頭(Ishango Bone) 是1960年在烏干達(dá)發(fā)現(xiàn)的被認(rèn)為是最早的史前記錄數(shù)據(jù)的證明之一。舊石器時代的部落人民在樹枝或者骨頭上刻下凹痕來記錄日常的交易活動或物品供應(yīng).比較樹枝和凹痕來進(jìn)行基本的算術(shù)計算的方法使他們能夠?qū)σ恍┦虑檫M(jìn)行預(yù)測,如食品將維持多久。
公元前2400年
第一個專門用來執(zhí)行算術(shù)運(yùn)算的工具是算盤,在巴比倫開始使用。歷史上第一座圖書館大概也是在這個時期出現(xiàn)的,這也代表著對大量數(shù)據(jù)進(jìn)行存儲的首次嘗試。
公元前300年-公元48年
或許亞歷山大圖書館是古代最大的數(shù)據(jù)儲存地了,這里50萬卷的藏書幾乎涵蓋了當(dāng)時我們學(xué)習(xí)的各個領(lǐng)域。不幸的是,公元48年這座圖書館被認(rèn)為意外地遭到了羅馬人的入侵。與大多數(shù)的神話故事相反,圖書館并未失去所有珍藏,一部分很重要的藏書被轉(zhuǎn)移到了城市里的另一個建筑里,一些被人偷了然后散布在世界的各個角落。
公元100年-公200年
安提凱希拉(Antikythera)機(jī)器, 是最早被發(fā)現(xiàn)的機(jī)械計算機(jī),可能由希臘的科學(xué)家們發(fā)明的。它的”CPU”由30個環(huán)環(huán)相扣的銅齒輪組成,被設(shè)計用來做占卜或者追蹤奧林匹克比賽的周期.它很可能預(yù)示著早期機(jī)器設(shè)備的革新,但到目前為止仍然不得而知.
1663年
在倫敦,約翰?葛蘭特(John Graunt)進(jìn)行了第一次有記錄的統(tǒng)計數(shù)據(jù)分析實(shí)驗(yàn).他用記錄下的當(dāng)時肆虐歐洲的黑死病死亡人數(shù)信息,建立起了早期預(yù)警系統(tǒng)的理論.
1865年
“商業(yè)智能”這一術(shù)語由理查德?彌勒?文斯(Richard Millar Devens)在他的商業(yè)軼事百科中提出,描述了銀行家亨利?福尼斯(Henry Furnese)怎樣用結(jié)構(gòu)化的方式收集和分析有關(guān)競爭對手的商業(yè)活動來取得競爭優(yōu)勢.這被認(rèn)為是第一次將數(shù)據(jù)分析用于商業(yè)目的的研究.
1880年
美國人口普查局有個問題,預(yù)計將花費(fèi)8年的時間去搗弄1880年收集到的人口普查數(shù)據(jù),而1890年的人口普查數(shù)據(jù)的處理將消耗超過10年的時間,這意味著到1900年人口普查的時候,人口普查局也無法看到那些過時的人口數(shù)據(jù)的結(jié)果。在1881年人口普查局聘用了一位年輕的工程師赫爾曼·霍爾瑞斯(Herman Hollerith),發(fā)明了著名的霍勒瑞斯制表機(jī).穿孔卡片的使用讓他將需要耗費(fèi)10年的工作縮短為3個月,這使他在歷史上取得了現(xiàn)代自動化計算之父的歷史地位.他成立的公司就是日后著名的IBM.
1926年
發(fā)明家尼古拉特斯拉(Nikola Tesla)在接受高力雜志(Colliers magazine)采訪時說道:”當(dāng)無線電技術(shù)被完美的應(yīng)用的時候,全球?qū)⒆兂梢粋€巨大的大腦,實(shí)際上就是這樣,所有的東西成為了實(shí)時的有節(jié)奏的整體的一部分,我們可以實(shí)現(xiàn)它,使用的工具將非常簡單,相當(dāng)于我們現(xiàn)在的手機(jī).人們可以將它放在口袋里隨身攜帶.”
1928年
波弗勞姆(Fritz Pfleumer),一位德國奧地利混血的工程師,發(fā)明了一種用磁帶來存儲信息的方法.他發(fā)明的這個原理今天依然在使用,絕大部分的數(shù)據(jù)就是存儲在有磁性介質(zhì)的電腦硬盤上.
1944年
弗里蒙特瑞德(Fremont Rider), 美國康乃迪克州衛(wèi)斯理大學(xué)的圖書管理員, 發(fā)表了題為 學(xué)者和學(xué)術(shù)圖書館的未來(The Scholar and the Future of the Research Library)的論文。
他注意到在早期嘗試量化產(chǎn)生的海量數(shù)據(jù)的時候,為了儲存所有學(xué)術(shù)和普通工作所產(chǎn)生的數(shù)據(jù),美國的圖書館將不得不每16年將他們的容量翻倍。這使他推測耶魯大學(xué)圖書館到2040年的時候?qū)?億冊圖書,遍布超過6000英里的書架。
1958年
IBM的研究員漢斯 彼得 盧恩(Hans Peter Luhn)將商業(yè)智能定義為“通過領(lǐng)會事實(shí)間相互關(guān)系的能力來引導(dǎo)我們的行為達(dá)到一個渴望的目標(biāo)”。
1962年
邁出的第一步是在語音識別領(lǐng)域,1962年的世界博覽會上IBM的工程師威廉姆(William C Dersch)展示了一臺鞋盒式的機(jī)器.它可以將數(shù)字和16詞的英文翻譯成數(shù)字信息.
1964年
新政治家雜志(New Statesman)上的一篇文章指出處理不斷增長的海量數(shù)據(jù)信息將不再是困難的。
1965年
美國政府計劃在世界首個數(shù)據(jù)中心的磁盤上存儲7.42億的納稅申報單和1.75億的指紋信息。
1970年
IBM的數(shù)學(xué)家埃德加(Edgar F Codd)展示了他的關(guān)系型數(shù)據(jù)庫的模型框架.這個模型提出的框架在現(xiàn)代的很多數(shù)據(jù)庫中使用,把信息存儲在層次化的結(jié)構(gòu)中使得每一個知道自己想找什么的人都可以獲取需要的信息.從電腦存儲中獲得數(shù)據(jù)之前通常都要請來一位專家.
1976年
商業(yè)上使用MRP系統(tǒng)變得越來越普遍,這代表著使用電腦加速每一天的商業(yè)運(yùn)作效率第一次成為主流.直到現(xiàn)在,大多數(shù)人只是在研究調(diào)查或者學(xué)術(shù)文獻(xiàn)中看到過.
1989年
也許是第一次像今天使用大數(shù)據(jù)那樣使用”大數(shù)據(jù)”這個術(shù)語.國際暢銷書作者埃里克·拉森(Erik Larson)為哈珀斯雜志寫了一篇他推測是首個收到垃圾郵件的文章.他寫到:”大數(shù)據(jù)的守護(hù)者說他們這么做是為了消費(fèi)者的利益.但是有一種使用數(shù)據(jù)為了其他目的和意圖的方式.”
另外,隨著為分析商業(yè)及運(yùn)算性能開發(fā)的新興軟件和系統(tǒng)的普及,上世紀(jì)50年代已經(jīng)很流行的概念”商業(yè)智能”看到了未來的大潮.
1991年
計算機(jī)科學(xué)家蒂姆伯納斯李宣告了我們今天所熟知的萬維網(wǎng)的誕生.在一個網(wǎng)站上,他制定了世界網(wǎng)絡(luò)的協(xié)議書,使互聯(lián)網(wǎng)的數(shù)據(jù)聯(lián)通起來,讓任何人可以在任何地方進(jìn)行通信.
1996年
根據(jù) R J T Morris 和 B J Truskowski 在2003年出版的圖書 存儲系統(tǒng)的革命中, 提出了數(shù)字存儲比紙質(zhì)存儲更劃算的觀點(diǎn)。
1997年
邁克來斯克(Michael Lesk)在他的論文世界上有多少信息? 理論地給出12,000PB這一可能不是很合理的猜想。他也在早期的發(fā)展中指出,網(wǎng)絡(luò)數(shù)據(jù)正以每年10倍的速度增長。他說任何人從未看過其中的大部分?jǐn)?shù)據(jù),所以這個變化很難被察覺。
這一年,谷歌搜索也首次亮相,至少在未來的20年,它的名字將成為網(wǎng)絡(luò)數(shù)據(jù)搜索的代名詞。
1999年
兩年后大數(shù)據(jù)這一術(shù)語出現(xiàn)在美國計算機(jī)協(xié)會發(fā)表的可視化實(shí)時探索G比特數(shù)據(jù)集中.傾向于存儲海量數(shù)據(jù)而無法充分對他們進(jìn)行分析再一次成為遺憾。論文接著引用了信息處理先驅(qū)理查德·衛(wèi)斯里·漢明(Richard W Hamming)的話:”信息處理的目的是洞察內(nèi)在的關(guān)系,而不是表面的數(shù)字?!?/p>
“物聯(lián)網(wǎng)”這一術(shù)語可能也在這個時候被首次使用,意味著網(wǎng)絡(luò)上不斷增長的設(shè)備有可能在沒有中間人的前提下相互進(jìn)行通信。它在無線射頻技術(shù)先驅(qū)凱文·艾什頓(Kevin Ashton)給保潔公司做的演講中被用來作為標(biāo)題。
2000年
彼得萊曼(Peter Lyman)和哈爾·范里安(現(xiàn)在是谷歌首席經(jīng)濟(jì)學(xué)家)在他們的題為有多少信息?的文章中首次嘗試計算世界上有多少數(shù)字信息以及增長率。他們總結(jié)道:世界上每年印刷品,電影,光學(xué)和磁性等內(nèi)容將需要大概15億GB來存儲。這相當(dāng)于地球上每個人都占有250MB的信息。
2001年
高德納公司分析師道格·萊尼(Doug Laney)在他的論文3D 數(shù)據(jù)管理:控制好數(shù)據(jù)容量,處理速度和多樣性中定義了將被普遍認(rèn)同的三個大數(shù)據(jù)特征.
在這一年,軟件與信息產(chǎn)業(yè)協(xié)會發(fā)表的戰(zhàn)略背景:軟件即服務(wù)的文章中也出現(xiàn)了一個新的術(shù)語”軟件即服務(wù)”,它是一種許多基于云計算應(yīng)用的概念基礎(chǔ),而今天已經(jīng)是行業(yè)標(biāo)準(zhǔn)了.
2005年
評論員說我們正在見證網(wǎng)絡(luò)2.0的誕生,大多數(shù)的網(wǎng)絡(luò)內(nèi)容將由用戶產(chǎn)生而不是網(wǎng)絡(luò)服務(wù)提供商給出的。通過整合HTML樣式的網(wǎng)頁和基于SQL的后臺數(shù)據(jù)庫技術(shù)實(shí)現(xiàn)了這一目標(biāo)。一年前出現(xiàn)的Facebook已經(jīng)有550萬人通過它來上傳自己的數(shù)據(jù)并與朋友分享。
Hadoop也在這一年誕生,它是專門為存儲及分析大數(shù)據(jù)的開源框架。它的靈活性使得管理我們不斷產(chǎn)生和采集的非結(jié)構(gòu)化數(shù)據(jù)(語音,視頻,文檔等)的時候特別有用。
2007年
連線雜志在文章理論的終結(jié):海量數(shù)據(jù)讓科學(xué)模型變得過時 中將大數(shù)據(jù)的概念引進(jìn)大眾的視野。
2008年
據(jù)有多少信息?2010年報告中提到,世界上的服務(wù)器處理了9.57ZB(95700億GB)的數(shù)據(jù),這相當(dāng)于每個人每天產(chǎn)生12G的數(shù)據(jù)量。在全球產(chǎn)品和信息的傳播中, 在這一年大概產(chǎn)生了14.7艾字節(jié)的信息量。
2009年
麥肯錫全球研究所在一篇報告大數(shù)據(jù):下一個創(chuàng)新、競爭、生產(chǎn)力的前沿 中指出美國平均每一家擁有1000名以上雇員的公司都存儲了超過200TB的數(shù)據(jù)。
2010年
Google執(zhí)行主席埃里克·施密特(Eric Schmidt)在會議上說現(xiàn)在兩天所產(chǎn)生的數(shù)據(jù)量是人類文明開始到2003年的總和。
2011年
麥肯錫公司報告指出到2018年,美國將面臨140000到190000名數(shù)據(jù)科學(xué)家的人才缺口,該報告也指出在實(shí)現(xiàn)大數(shù)據(jù)的所有價值之前需要解決一些問題,包括個人隱私,安全,知識產(chǎn)權(quán)等。
2014年
移動終端的增長第一次指出越來越多的人通過移動設(shè)備來獲取數(shù)字信息,相比之前的在辦公室或者家用電腦上。美國通用和埃森哲咨詢公司合作調(diào)查了88%的企業(yè)主管后得出大數(shù)據(jù)分析師是企業(yè)中急需的人才。
我們需要知道的是大數(shù)據(jù)并不是一個新的或者孤立的現(xiàn)象,而是人類長期采集和使用數(shù)據(jù)的結(jié)果。就像其他關(guān)鍵性的發(fā)展如數(shù)據(jù)存儲,數(shù)據(jù)處理,因特網(wǎng)一樣,大數(shù)據(jù)將更進(jìn)一步地改變我們社會和企業(yè)的運(yùn)作。同時它也將為許多變革奠定基礎(chǔ)。
原文標(biāo)題:Big Data: A Brief(ish) History Everyone Should Read