書籍簡介:
作者:
《大數(shù)據(jù)時(shí)代》是國外大數(shù)據(jù)研究的先河之作,本書作者維克托?邁爾?舍恩伯格被譽(yù)為“大數(shù)據(jù)商業(yè)應(yīng)用第一人”,擁有在哈佛大學(xué)、牛津大學(xué)、耶魯大學(xué)和新加坡國立大學(xué)等多個(gè)互聯(lián)網(wǎng)研究重鎮(zhèn)任教的經(jīng)歷,早在2010年就在《經(jīng)濟(jì)學(xué)人》上發(fā)布了長達(dá)14頁對(duì)大數(shù)據(jù)應(yīng)用的前瞻性研究。
兩年前,還是社會(huì)學(xué)專業(yè)的我最喜歡翹的課叫做”社會(huì)統(tǒng)計(jì)學(xué)”,與其聽著傳統(tǒng)死板的抽樣調(diào)查與回歸分析,我更喜歡和一個(gè)做數(shù)據(jù)挖掘的數(shù)學(xué)系同學(xué)四處溜達(dá)?!皵?shù)據(jù)挖掘(Data mining)是什么?”她跟我舉了一個(gè)最簡單的例子:“沃爾瑪通過對(duì)超市里人們購買行為的大量數(shù)據(jù)分析,發(fā)現(xiàn)男人們來買啤酒的時(shí)候,通常也會(huì)買尿布。這樣的發(fā)現(xiàn)就讓超市將尿布和啤酒擺放在一起出售,從而提高利潤?!?br>“嚴(yán)謹(jǐn)?shù)纳鐣?huì)學(xué)訓(xùn)練”讓我?guī)缀踉诋?dāng)時(shí)就開始思考“為什么?”“尿布和啤酒的銷售量為什么會(huì)有關(guān)聯(lián)呢?是因?yàn)槟腥藗冑I啤酒的時(shí)候,會(huì)‘順便’購買尿布?還是因?yàn)橘I“尿布”的時(shí)候會(huì)聯(lián)想到‘’啤酒’?”——這使我立刻意識(shí)到在社會(huì)科學(xué)的學(xué)習(xí)中,因果關(guān)系已經(jīng)成為了一種極其普遍的范式——甚至夸張一點(diǎn)說,所有社會(huì)科學(xué)的研究都只是為了解答一個(gè)問題——“為什么?”它面向過去,面向所有已經(jīng)發(fā)生的事實(shí),試圖通過信息收集和邏輯假設(shè)來說明一個(gè)道理:”人類社會(huì)中**事情的發(fā)生,是因?yàn)?*及**因素的作用。“
我意識(shí)到,這與《大數(shù)據(jù)時(shí)代》中所提出的”大數(shù)據(jù)思維“的三個(gè)層面正好截然相反:
1
、不是因果關(guān)系,而是相關(guān)性。大數(shù)據(jù)思維只關(guān)注”相關(guān)性“,而不再關(guān)注因果關(guān)系。也就是說,沃爾瑪知道尿布和啤酒、手電筒與pop-tarts蛋撻的銷量具有正相關(guān)性,就足夠做出將兩個(gè)物品擺放在一起銷售的決策了。它并不需要去分析原因,因?yàn)橹灰肋@件事情”正在發(fā)生“或者”即將發(fā)生“,企業(yè)就完全能夠做出正確的決定。
2、“樣本=全部”——不是隨即樣本,而是全部數(shù)據(jù)。《大數(shù)據(jù)時(shí)代》也對(duì)傳統(tǒng)意義上的統(tǒng)計(jì)學(xué)構(gòu)成了沖擊。在這樣一個(gè)我們有足夠強(qiáng)大的數(shù)據(jù)搜集和數(shù)據(jù)處理能力的時(shí)代,樣本不再是萬分之一,而轉(zhuǎn)變成了”樣本=全部“,樣本,就是萬分之一萬。傳統(tǒng)意義上的統(tǒng)計(jì)學(xué)的隨機(jī)抽樣方法中有一條極其明智的真理:”采樣分析的精確性隨著采樣隨機(jī)性的增加而大幅提高,但與樣本數(shù)量的增加關(guān)系不大?!笨梢哉f,“樣本分析”奠定了絕大多數(shù)科學(xué)研究的基礎(chǔ)。而大數(shù)據(jù)時(shí)代,全數(shù)據(jù)分析的模式將全面替代“樣本分析方式”。正如《魔鬼經(jīng)濟(jì)學(xué)》(Freakonomics)中,作者關(guān)于相撲運(yùn)動(dòng)員的研究,其創(chuàng)造性的觀點(diǎn)正式通過使用了11年中超過64000場摔跤比賽的全數(shù)據(jù)記錄來尋找到了異常性。這樣的洞見,恰恰是樣本分析所無法提供的。
3、不是精確性——而是混雜性。數(shù)據(jù)量的顯著增大也必然會(huì)讓我們付出一些代價(jià)——一些不準(zhǔn)確的數(shù)據(jù)會(huì)混入數(shù)據(jù)庫,結(jié)果也可能不準(zhǔn)確。這就是大數(shù)據(jù)時(shí)代的另一種思維——“不是精確性,而是混雜性”。 對(duì)“小數(shù)據(jù)”而言,最重要的要求就是減少錯(cuò)誤。而在大數(shù)據(jù)的采集里,在技術(shù)尚未達(dá)到完美無缺之前,混亂是無可避的。雖然我們得到的信息不再那么準(zhǔn)確,但收集到的數(shù)量龐大的信息讓我們放棄嚴(yán)格精確的選擇變的更為劃算。從谷歌翻譯系統(tǒng)中可以看到,它收集了上萬億的語料庫,來自未經(jīng)過濾的網(wǎng)頁內(nèi)容,可能會(huì)含有不準(zhǔn)確的用法、語病,未必每一條語料庫都非?!熬_”,然而這個(gè)語料庫是布朗語料庫的幾百萬倍大,這樣的龐大規(guī)模優(yōu)勢(shì)完全掩蓋了它的缺點(diǎn)。也就是“大數(shù)據(jù)的簡單算法,比小數(shù)據(jù)的復(fù)雜算法,更加有效”。
總體而言,大數(shù)據(jù)時(shí)代透露出三個(gè)特征——更多、更雜與更好。它面向未來,要做的事情是關(guān)于“預(yù)測”。正如作者所說"大數(shù)據(jù)要求我們有所改變,我們必須能夠接受混亂和不確定性。精確性似乎一直是我們生活的支撐,就像我們常說的‘釘是釘,鉚是鉚’,
但認(rèn)為每個(gè)問題只有一個(gè)答案的想法是站不住腳的,不管我們承不承認(rèn)。一旦我們承認(rèn)了這個(gè)事實(shí),甚至擁護(hù)這個(gè)事實(shí)的話,我們離真相又近了一步?!?br>
當(dāng)我們用”物聯(lián)網(wǎng)“去開始測量、記錄、分析,世界,并將我們的世界”數(shù)字化“的時(shí)候,Information Technology,信息技術(shù)的變革,就將聚光燈轉(zhuǎn)向了Information的身上。
從三千多年前會(huì)計(jì)學(xué)的誕生開始,人們將大量的經(jīng)濟(jì)活動(dòng)”數(shù)字化“。然而,”數(shù)字化“只是為”數(shù)據(jù)化”拉開序幕。
在google的數(shù)字圖書館中,”文字“也已經(jīng)被“數(shù)據(jù)化”,人們可以檢索、對(duì)比、發(fā)現(xiàn)不同的詞組在幾十年來中含義和運(yùn)用的沿革。人可以閱讀,機(jī)器也可以分析。
在Foursquare和街旁網(wǎng)中,“方位”也已經(jīng)被“數(shù)據(jù)化”,在我們喜愛的地方”check-in“,我們通過忠誠度計(jì)劃、酒店推薦和其他計(jì)劃得到好處。
在Facebook或twitter的里,"溝通"也已經(jīng)被“數(shù)據(jù)化”,倫敦的金融公司通過分析每天的Twitter的大量數(shù)據(jù),以作為股市的投資信號(hào)。
而更令人興奮的是,”數(shù)據(jù)"作為一種資源,本身是一種非競爭性的資源,它的價(jià)值并不會(huì)因?yàn)楸皇褂枚鴾p少,相反,它可能被通過不斷地重復(fù)使用而產(chǎn)生出更高的價(jià)值。數(shù)據(jù)本身的價(jià)值,是它所有能夠產(chǎn)生的可能選擇的價(jià)值的總和。書中提到了幾種數(shù)據(jù)創(chuàng)新:
1、數(shù)據(jù)再利用。數(shù)據(jù)的運(yùn)用者常常不是那些擁有大量數(shù)據(jù)的機(jī)構(gòu),卻是那些恰好可以用這些數(shù)據(jù)來支持其商業(yè)模式的機(jī)構(gòu),這就是“再利用”
2、重組數(shù)據(jù):將多個(gè)數(shù)據(jù)集的總和重組在一起時(shí),充足總和本身的價(jià)值也比單個(gè)的總更大。丹麥的癌癥研究就是將所有的癌癥患者和手機(jī)用戶的數(shù)據(jù)結(jié)合起來,從而揭示兩者是否有關(guān)聯(lián)性——幸運(yùn)的是,全數(shù)據(jù)顯示并無關(guān)聯(lián)。
3、可擴(kuò)展數(shù)據(jù)。譬如,零售在店內(nèi)安裝的監(jiān)控?cái)z像頭,不僅能認(rèn)出把手,也能跟蹤經(jīng)過商店的客戶流和他們停留的位置。
4、數(shù)據(jù)的折舊值:隨著時(shí)間的退役,大部分的數(shù)據(jù)都會(huì)失去一部分基本用途。然而,即使數(shù)據(jù)用于基本用途的價(jià)值會(huì)減少,但選擇的價(jià)值卻依然強(qiáng)大。從這個(gè)角度,組織機(jī)構(gòu)應(yīng)收集盡可能多的使用數(shù)據(jù),并保存盡可能長的時(shí)間,同時(shí)也應(yīng)當(dāng)與第三方分享數(shù)據(jù),保留所謂的“延展性”權(quán)利。
5、數(shù)據(jù)廢氣:在拼寫檢查中,用戶會(huì)有大量的錯(cuò)誤拼寫。這些數(shù)據(jù)看起來是廢品,但收集在一起卻能夠鍛造成一塊閃亮的金元寶。例如,當(dāng)couresa這樣的網(wǎng)絡(luò)平臺(tái)中一個(gè)班級(jí)數(shù)量超過萬人時(shí),教授發(fā)現(xiàn)2000個(gè)學(xué)生在作業(yè)中犯了同樣的一個(gè)錯(cuò)誤。修正后,系統(tǒng)將會(huì)提醒以后犯同樣錯(cuò)誤的學(xué)生。通過這些’錯(cuò)誤“,我們改變了教育的方式。
6、開放數(shù)據(jù):政府只是收集信息的托管人,而數(shù)據(jù)應(yīng)當(dāng)對(duì)全球開放。
在大數(shù)據(jù)價(jià)值鏈上,會(huì)有三種不同的大數(shù)據(jù)公司,
第一種是基于數(shù)據(jù)本身的公司,第二種是基于技能,第三種則是基于思維。從我的理解來看,第一種人,擁有金礦的礦山。第二種就是數(shù)據(jù)分析師,也可以說,擁有開采、提煉金礦的技術(shù)。第三種則是加工金礦的人,把金礦做成金元寶、首飾,通過創(chuàng)新思維讓數(shù)據(jù)具有商業(yè)價(jià)值。在大數(shù)據(jù)時(shí)代的早期,思維和技能是最有價(jià)值的,但作者認(rèn)為,最終,大部分的價(jià)值還是必須從數(shù)據(jù)本身來挖掘,也就是說——金礦本身才是最值錢的。
然而,大數(shù)據(jù)背后帶來的也是重重隱憂——從我們的隱私不斷暴露,個(gè)人在網(wǎng)絡(luò)上留下的千絲萬縷的蹤跡似乎讓人們又回到了”老大哥在看著你“的那種擔(dān)憂?!薄皵?shù)據(jù)統(tǒng)治”的登峰造極從哲學(xué)上會(huì)抹殺人的自由意志和選擇的可能性,正如,基于你以前的各類數(shù)據(jù)分析,陪審團(tuán)斷定你以后將會(huì)犯罪。那將是人性面對(duì)技術(shù)的一次潰敗。
閱讀《大數(shù)據(jù)時(shí)代》的過程,總是讓我不斷地想起庫恩《科學(xué)革命的結(jié)構(gòu)和范式》。毫無疑問,大數(shù)據(jù)帶來的是思維范式的根本性變革——我們將不再沉湎于歷史和過去,試圖解釋某種聯(lián)系,而是更好地覺知當(dāng)下,與正在發(fā)生的未來。