一、統(tǒng)計學(xué)視角下的數(shù)據(jù)科學(xué)
統(tǒng)計學(xué)研究的對象是數(shù)據(jù),數(shù)據(jù)科學(xué)顧名思義也是以數(shù)據(jù)為研究對象,這產(chǎn)生一種直觀的錯覺,似乎數(shù)據(jù)科學(xué)與統(tǒng)計學(xué)之間存在某種與生俱來的淵源關(guān)系。Wu(1998)直言不諱,數(shù)據(jù)科學(xué)就是統(tǒng)計學(xué)的重命名,相應(yīng)地,數(shù)據(jù)科學(xué)家替代了統(tǒng)計學(xué)家這個稱謂。若此,那是什么促成了這種名義上的替代?顯然僅僅因?yàn)閿?shù)據(jù)量大本身并不足以促成“統(tǒng)計學(xué)”向“數(shù)據(jù)科學(xué)”的轉(zhuǎn)變,數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)這些概念似乎就已經(jīng)足夠了。問題的關(guān)鍵在于,二者所指的“數(shù)據(jù)”并非同一概念,數(shù)據(jù)②本身是一個很寬泛的概念,只要是對客觀事物記錄下來的、可以鑒別的符號都可以稱之為數(shù)據(jù),包括數(shù)字、文字、音頻、視頻等等。統(tǒng)計學(xué)研究的數(shù)據(jù)雖然類型豐富,如類別數(shù)據(jù)、有序數(shù)據(jù)等定性數(shù)據(jù),定距數(shù)據(jù)、定比數(shù)據(jù)等定量數(shù)據(jù),但這些都是結(jié)構(gòu)化數(shù)據(jù);數(shù)據(jù)科學(xué)所謂的數(shù)據(jù)則更為寬泛,不僅包括這些傳統(tǒng)的結(jié)構(gòu)型數(shù)據(jù),而且還包括文本、圖像、視頻、音頻、網(wǎng)絡(luò)日志等非結(jié)構(gòu)型和半結(jié)構(gòu)型數(shù)據(jù),即,大數(shù)據(jù)。大數(shù)據(jù)(以半/非結(jié)構(gòu)型數(shù)據(jù)為主)使基于關(guān)系型數(shù)據(jù)庫的傳統(tǒng)分析工具很難發(fā)揮作用,或者說傳統(tǒng)的數(shù)據(jù)庫和統(tǒng)計分析方法很難在可容忍的時間范圍內(nèi)完成存儲、管理和分析等一系列數(shù)據(jù)處理過程,為了有效地處理這類數(shù)據(jù),需要一種新的范式———數(shù)據(jù)科學(xué)。真正意義上的現(xiàn)代統(tǒng)計學(xué)是從處理小數(shù)據(jù)、不完美的實(shí)驗(yàn)等這類現(xiàn)實(shí)問題發(fā)展起來的,而數(shù)據(jù)科學(xué)是因?yàn)樘幚泶髷?shù)據(jù)這類現(xiàn)實(shí)問題而興起的。因此數(shù)據(jù)科學(xué)的研究對象是大數(shù)據(jù),而統(tǒng)計學(xué)以結(jié)構(gòu)型數(shù)據(jù)為研究對象。退一步,單從數(shù)量級來講,也已發(fā)生了質(zhì)變。對于結(jié)構(gòu)化的大規(guī)模數(shù)據(jù),傳統(tǒng)的方法只是理論上的(可行性)或不經(jīng)濟(jì)的(有效性),實(shí)踐中還需要借助數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、并行處理技術(shù)等現(xiàn)代計算技術(shù)才能實(shí)現(xiàn)。
二、數(shù)據(jù)科學(xué)的統(tǒng)計學(xué)內(nèi)涵
(一)理論基礎(chǔ)
數(shù)據(jù)科學(xué)中的數(shù)據(jù)處理和分析方法是在不同學(xué)科領(lǐng)域中分別發(fā)展起來的,譬如,統(tǒng)計學(xué)、統(tǒng)計學(xué)習(xí)或稱統(tǒng)計機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、應(yīng)用數(shù)學(xué)、數(shù)據(jù)密集型計算、密集計算方法等。在量化分析的浪潮下甚至出現(xiàn)了“metric+模式”,如計量經(jīng)濟(jì)學(xué)、文獻(xiàn)計量學(xué)、網(wǎng)絡(luò)計量學(xué)、生物統(tǒng)計學(xué)等。因此,有學(xué)者將數(shù)據(jù)科學(xué)定義為計算機(jī)科學(xué)技術(shù)、數(shù)學(xué)與統(tǒng)計學(xué)知識、專業(yè)應(yīng)用知識三者的交集,這意味著數(shù)據(jù)科學(xué)是一門新興的交叉學(xué)科。但是這種沒有側(cè)重的疊加似乎只是羅列了數(shù)據(jù)科學(xué)所涉及到的學(xué)科知識,并沒有進(jìn)行實(shí)質(zhì)性的分析,就好似任何現(xiàn)實(shí)活動都可以拆解為不同的細(xì)分學(xué)科,這是必然的。根據(jù)Naur(1960,1974)的觀點(diǎn),數(shù)據(jù)科學(xué)或稱數(shù)據(jù)學(xué)是計算機(jī)科學(xué)的一個替代性稱謂。但是這種字面上的轉(zhuǎn)換,并沒有作為一個獨(dú)立的學(xué)科而形成。Cleveland(2001)首次將數(shù)據(jù)科學(xué)作為一個獨(dú)立的學(xué)科提出時,將數(shù)據(jù)科學(xué)表述為統(tǒng)計學(xué)加上它在計算技術(shù)方面的擴(kuò)展。這種觀點(diǎn)表明,數(shù)據(jù)科學(xué)的理論基礎(chǔ)是統(tǒng)計學(xué),數(shù)據(jù)科學(xué)可以看作是統(tǒng)計學(xué)在研究范圍(對象)和分析方法上不斷擴(kuò)展的結(jié)果。一如統(tǒng)計學(xué)最初只是作為征兵、征稅等行政管理的附屬活動,而現(xiàn)在包括了范圍更廣泛的理論和方法。從研究范圍的擴(kuò)展來看,是從最初的結(jié)構(gòu)型大規(guī)模數(shù)據(jù)(登記數(shù)據(jù)),到結(jié)構(gòu)型的小規(guī)模數(shù)據(jù)(抽樣數(shù)據(jù))、結(jié)構(gòu)型的大規(guī)模數(shù)據(jù)(微觀數(shù)據(jù)),再擴(kuò)展到現(xiàn)在的非(半)結(jié)構(gòu)型的大規(guī)模數(shù)據(jù)(大數(shù)據(jù))和關(guān)系數(shù)據(jù)等類型更為豐富的數(shù)據(jù)。從分析方法的擴(kuò)展來看,是從參數(shù)方法到非參數(shù)方法,從基于模型到基于算法,一方面?zhèn)鹘y(tǒng)的統(tǒng)計模型需要向更一般的數(shù)據(jù)概念延伸;另一方面,算法(計算機(jī)實(shí)現(xiàn))成為必要的“可行性分析”,而且在很多方面算法模型的優(yōu)勢越來越突出。注意到,數(shù)據(jù)分析有驗(yàn)證性的數(shù)據(jù)分析和探索性的數(shù)據(jù)分析兩個基本取向,但不論是哪一種取向,都有一個基本的前提假設(shè),就是觀測數(shù)據(jù)是由背后的一個(隨機(jī))模型生成,因此數(shù)據(jù)分析的基本問題就是找出這個(隨機(jī))模型。Tukey(1980,2000)明確提到,EDA和CDA并不是替代關(guān)系,兩者皆必不可少,強(qiáng)調(diào)EDA是因?yàn)樗坏凸懒恕?shù)據(jù)導(dǎo)向是計算機(jī)時代統(tǒng)計學(xué)發(fā)展的方向,這一觀點(diǎn)已被越來越多的統(tǒng)計學(xué)家所認(rèn)同。但是數(shù)據(jù)導(dǎo)向仍然有基于模型與基于算法兩種聲音,其中,前文提到的EDA和CDA都屬于基于模型的方法,它們都假定數(shù)據(jù)背后存在某種生成機(jī)制;而算法模型則認(rèn)為復(fù)雜的現(xiàn)實(shí)世界無法用數(shù)學(xué)公式來刻畫,即,不設(shè)置具體的數(shù)學(xué)模型,同時對數(shù)據(jù)也不做相應(yīng)的限制性假定。算法模型自20世紀(jì)80年代中期以來隨著計算機(jī)技術(shù)的迅猛發(fā)展而得到快速成長,然而很大程度上是在統(tǒng)計學(xué)這個領(lǐng)域之外“悄然”進(jìn)行的,比如人工神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)、決策樹、隨機(jī)森林等機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘方法。若響應(yīng)變量記為y,預(yù)測變量記為x,擾動項和參數(shù)分別記為ε和β,則基于模型的基本形式是:y=f(x,β,ε),其目的是要研究清楚y與x之間的關(guān)系并對y做出預(yù)測,其中,f是一個有顯式表達(dá)的函數(shù)形式(若f先驗(yàn)假定,則對應(yīng)CDA;若f是探索得到的,則對應(yīng)EDA),比如線性回歸、Logistic回歸、Cox回歸等??梢姡瑐鹘y(tǒng)建模的基本觀點(diǎn)是,不僅要得到正確的模型———可解釋性強(qiáng),而且要得到準(zhǔn)確的模型———外推預(yù)測能力強(qiáng)。而對于現(xiàn)實(shí)中復(fù)雜的、高維的、非線性的數(shù)據(jù)集,更切合實(shí)際的做法是直接去尋找一個恰當(dāng)?shù)念A(yù)測規(guī)則(算法模型),不過代價是可解釋性較弱,但是算法模型的計算效率和可擴(kuò)展性更強(qiáng)?;谒惴ǖ幕拘问筋愃朴诜菂?shù)方法y=f(x,ε),但是比非參數(shù)方法的要求更低y←x,因?yàn)榉菂?shù)方法很多時候要求f或其一階導(dǎo)數(shù)是平滑的,而這里直接跳過了函數(shù)機(jī)制的探討,尋找的只是一個預(yù)測規(guī)則(后續(xù)的檢驗(yàn)也是基于預(yù)測構(gòu)造的)。在很多應(yīng)用場合,算法模型得到的是針對具體問題的解(譬如某些參數(shù)是被當(dāng)作一個確定的值通過優(yōu)化算法得到的),并不是統(tǒng)計意義上的推斷解。
(二)技術(shù)維度
數(shù)據(jù)科學(xué)是基于數(shù)據(jù)的決策,數(shù)據(jù)分析的本質(zhì)既不是數(shù)學(xué),也不是軟件程序,而是對數(shù)據(jù)的“閱讀”和“理解”。技術(shù)只是輔助數(shù)據(jù)理解的工具,一個毫無統(tǒng)計學(xué)知識的人應(yīng)用統(tǒng)計軟件也可以得到統(tǒng)計結(jié)果,但無論其過程還是結(jié)果都是可疑的,對統(tǒng)計結(jié)果的解釋也無法令人信服?!皬挠嬎銠C(jī)科學(xué)自身來看,這些應(yīng)用領(lǐng)域提供的主要研究對象就是數(shù)據(jù)。雖然計算機(jī)科學(xué)一貫重視數(shù)據(jù)的研究,但數(shù)據(jù)在其中的地位將會得到更進(jìn)一步的加強(qiáng)”。不可否認(rèn),統(tǒng)計分析逐漸向計算機(jī)科學(xué)技術(shù)靠近的趨勢是明顯的。這一方面是因?yàn)?,?shù)據(jù)量快速膨脹,數(shù)據(jù)來源、類型和結(jié)構(gòu)越來越復(fù)雜,迫切需要開發(fā)更高效率的存儲和分析工具,可以很好地適應(yīng)數(shù)據(jù)量的快速膨脹;另一方面,計算機(jī)科學(xué)技術(shù)的迅猛發(fā)展為新方法的實(shí)現(xiàn)提供了重要的支撐。對于大數(shù)據(jù)而言,大數(shù)據(jù)分析丟不掉計算機(jī)科學(xué)這個屬性的一個重要原因還不單純是因?yàn)樾枰y(tǒng)計軟件來協(xié)助基本的統(tǒng)計分析和計算,而是大數(shù)據(jù)并不能像早先在關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù)那樣可以直接用于統(tǒng)計分析。事實(shí)上,面對越來越龐雜的數(shù)據(jù),核心的統(tǒng)計方法并沒有實(shí)質(zhì)性的改變,改變的只是實(shí)現(xiàn)它的算法。因此,從某種程度上來講,大數(shù)據(jù)考驗(yàn)的并不是統(tǒng)計學(xué)的方法論,而是計算機(jī)科學(xué)技術(shù)和算法的適應(yīng)性。譬如大數(shù)據(jù)的存儲、管理以及分析架構(gòu),這些都是技術(shù)上的應(yīng)對,是如何實(shí)現(xiàn)統(tǒng)計分析的輔助工具,核心的數(shù)據(jù)分析邏輯并沒有實(shí)質(zhì)性的改變。因此,就目前而言,大數(shù)據(jù)分析的關(guān)鍵是計算機(jī)技術(shù)如何更新升級來適應(yīng)這種變革,以便可以像從前一樣滿足統(tǒng)計分析的需要。
(三)應(yīng)用維度
在商業(yè)應(yīng)用領(lǐng)域,數(shù)據(jù)科學(xué)被定義為,將數(shù)據(jù)轉(zhuǎn)化為有價值的商業(yè)信息①的完整過程。數(shù)據(jù)科學(xué)家要同時具備數(shù)據(jù)分析技術(shù)和商業(yè)敏感性等綜合技能。換句話說,數(shù)據(jù)科學(xué)家不僅要了解數(shù)據(jù)的來源、類型和存儲調(diào)用方式,而且還要知曉如何選擇相應(yīng)的分析方法,同時對分析結(jié)果也能做出切合實(shí)際的解釋②。這實(shí)際上提出了兩個層面的要求:①長期目標(biāo)是數(shù)據(jù)科學(xué)家從一開始就應(yīng)該熟悉整個數(shù)據(jù)分析流程,而不是數(shù)據(jù)庫、統(tǒng)計學(xué)、機(jī)器學(xué)習(xí)、經(jīng)濟(jì)學(xué)、商業(yè)分析等片段化碎片化的知識。②短期目標(biāo)實(shí)際上是一個“二級定義”,即,鼓勵已經(jīng)在專業(yè)領(lǐng)域內(nèi)有所成就的統(tǒng)計學(xué)家、程序員、商業(yè)分析師相互學(xué)習(xí)。在提及數(shù)據(jù)科學(xué)的相關(guān)文獻(xiàn)中,對應(yīng)用領(lǐng)域有更多的傾向;數(shù)據(jù)科學(xué)與統(tǒng)計學(xué)、數(shù)學(xué)等其他學(xué)科的區(qū)別恰在于其更傾向于實(shí)際應(yīng)用。甚至有觀點(diǎn)認(rèn)為,數(shù)據(jù)科學(xué)是為應(yīng)對大數(shù)據(jù)現(xiàn)象而專門設(shè)定的一個“職業(yè)”。其中,商業(yè)敏感性是數(shù)據(jù)科學(xué)家區(qū)別于一般統(tǒng)計人員的基本素質(zhì)。對數(shù)據(jù)的簡單收集和報告不是數(shù)據(jù)科學(xué)的要義,數(shù)據(jù)科學(xué)強(qiáng)調(diào)對數(shù)據(jù)多角度的理解,以及如何就大數(shù)據(jù)提出相關(guān)的問題(很多重要的問題,我們非但不知道答案而且不知道問題何在以及如何發(fā)問)。同時數(shù)據(jù)科學(xué)家要有良好的表達(dá)能力,能將數(shù)據(jù)中所發(fā)現(xiàn)的事實(shí)清楚地表達(dá)給相關(guān)部門以便實(shí)現(xiàn)有效協(xié)作。從商業(yè)應(yīng)用和服務(wù)社會的角度來看,強(qiáng)調(diào)應(yīng)用這個維度無可厚非,因?yàn)榇颂幨菙?shù)據(jù)產(chǎn)生的土壤,符合數(shù)據(jù)科學(xué)數(shù)據(jù)導(dǎo)向的理念,數(shù)據(jù)分析的目的很大程度上也是為了增進(jìn)商業(yè)理解,而且包括數(shù)據(jù)科學(xué)家、首席信息官這些提法也都肇始于實(shí)務(wù)部門。不過,早在20世紀(jì)90年代中期,已故圖靈獎得主格雷(JimGray)就已經(jīng)意識到,數(shù)據(jù)庫技術(shù)的下一個“大數(shù)據(jù)”挑戰(zhàn)將會來自科學(xué)領(lǐng)域而非商業(yè)領(lǐng)域(科學(xué)研究領(lǐng)域成為產(chǎn)生大數(shù)據(jù)的重要土壤)。2008年9月4日刊出的《自然》以“bigdata”作為專題(封面)探討了環(huán)境科學(xué)、生物醫(yī)藥、互聯(lián)網(wǎng)技術(shù)等領(lǐng)域所面臨的大數(shù)據(jù)挑戰(zhàn)。2011年2月11日,《科學(xué)》攜其子刊《科學(xué)-信號傳導(dǎo)》、《科學(xué)-轉(zhuǎn)譯醫(yī)學(xué)》、《科學(xué)-職業(yè)》專門就日益增長的科學(xué)研究數(shù)據(jù)進(jìn)行了廣泛的討論。格雷還進(jìn)一步提出科學(xué)研究的“第四范式”是數(shù)據(jù)(數(shù)據(jù)密集型科學(xué)),不同于實(shí)驗(yàn)、理論、和計算這三種范式,在該范式下,需要“將計算用于數(shù)據(jù),而非將數(shù)據(jù)用于計算”。這種觀點(diǎn)實(shí)際上是將數(shù)據(jù)從計算科學(xué)中單獨(dú)區(qū)別開來了。
三、數(shù)據(jù)科學(xué)范式對統(tǒng)計分析過程的直接影響
以前所謂的大規(guī)模數(shù)據(jù)都是封閉于一個機(jī)構(gòu)內(nèi)的(數(shù)據(jù)孤島),而大數(shù)據(jù)注重的是數(shù)據(jù)集間的關(guān)聯(lián)關(guān)系,也可以說大數(shù)據(jù)讓孤立的數(shù)據(jù)形成了新的聯(lián)系,是一種整體的、系統(tǒng)的觀念。從這個層面來說,將大數(shù)據(jù)稱為“大融合數(shù)據(jù)”或許更為恰當(dāng)。事實(shí)上,孤立的大數(shù)據(jù),其價值十分有限,大數(shù)據(jù)的革新恰在于它與傳統(tǒng)數(shù)據(jù)的結(jié)合、線上和線下數(shù)據(jù)的結(jié)合,當(dāng)放到更大的環(huán)境中所產(chǎn)生的“1+1>2”的價值。譬如消費(fèi)行為記錄與企業(yè)生產(chǎn)數(shù)據(jù)結(jié)合,移動通訊基站定位數(shù)據(jù)用于優(yōu)化城市交通設(shè)計,微博和社交網(wǎng)絡(luò)數(shù)據(jù)用于購物推薦,搜索數(shù)據(jù)用于流感預(yù)測、利用社交媒體數(shù)據(jù)監(jiān)測食品價等等。特別是數(shù)據(jù)集之間建立的均衡關(guān)系,一方面無形中增強(qiáng)了對數(shù)據(jù)質(zhì)量的監(jiān)督和約束;另一方面,為過去難以統(tǒng)計的指標(biāo)和變量提供了另辟蹊徑的思路。從統(tǒng)計學(xué)的角度來看,數(shù)據(jù)科學(xué)(大數(shù)據(jù))對統(tǒng)計分析過程的各個環(huán)節(jié)(數(shù)據(jù)收集、整理、分析、評價、發(fā)布等)都提出了挑戰(zhàn),其中,集中表現(xiàn)在數(shù)據(jù)收集和數(shù)據(jù)分析這兩個方面。
(一)數(shù)據(jù)收集方面
在統(tǒng)計學(xué)被作為一個獨(dú)立的學(xué)科分離出來之前(1900年前),統(tǒng)計學(xué)家們就已經(jīng)開始處理大規(guī)模數(shù)據(jù)了,但是這個時期主要是全國范圍的普查登記造冊,至多是一些簡單的匯總和比較。之后(1920-1960年)的焦點(diǎn)逐漸縮聚在小規(guī)模數(shù)據(jù)(樣本),大部分經(jīng)典的統(tǒng)計方法(統(tǒng)計推斷)以及現(xiàn)代意義上的統(tǒng)計調(diào)查(抽樣調(diào)查)正是在這個時期產(chǎn)生。隨后的45年里,統(tǒng)計方法因廣泛的應(yīng)用而得到快速發(fā)展。變革再次來自于統(tǒng)計分析的初始環(huán)節(jié)———數(shù)據(jù)收集方式的轉(zhuǎn)變:傳統(tǒng)的統(tǒng)計調(diào)查方法通常是經(jīng)過設(shè)計的、系統(tǒng)收集的,而大數(shù)據(jù)是零散實(shí)錄的、有機(jī)的,這些數(shù)據(jù)通常是用戶使用電子數(shù)碼產(chǎn)品的副產(chǎn)品或用戶自行產(chǎn)生的內(nèi)容,比如社交媒體數(shù)據(jù)、搜索記錄、網(wǎng)絡(luò)日志等數(shù)據(jù)流等,而且數(shù)據(jù)隨時都在增加(數(shù)據(jù)集是動態(tài)的)。與以往大規(guī)模數(shù)據(jù)不同的是,數(shù)據(jù)來源和類型更加豐富,數(shù)據(jù)庫間的關(guān)聯(lián)性也得到了前所未有的重視(大數(shù)據(jù)的組織形式是數(shù)據(jù)網(wǎng)絡(luò)),問題也變得更加復(fù)雜。隨著移動電話和網(wǎng)絡(luò)的逐漸滲透,固定電話不再是識別住戶的有效工具變量,相應(yīng)的無回答率也在增加(移動電話的拒訪率一般高于固定電話),同時統(tǒng)計調(diào)查的成本在增加,人口的流動性在增加,隱私意識以及法律對隱私的保護(hù)日益趨緊,涉及個人信息的數(shù)據(jù)從常規(guī)調(diào)查中越來越難以取得(從各國的經(jīng)驗(yàn)來看,拒訪率或無回答率的趨勢是增加的),對時效性的要求也越來越高。因此,官方統(tǒng)計的數(shù)據(jù)來源已經(jīng)無法局限于傳統(tǒng)的統(tǒng)計調(diào)查,迫切需要整合部門行政記錄數(shù)據(jù)、商業(yè)記錄數(shù)據(jù)、個人行為記錄數(shù)據(jù)等多渠道數(shù)據(jù)源,與部門和搜索引擎服務(wù)商展開更廣泛的合作。
(二)數(shù)據(jù)分析方面
現(xiàn)代統(tǒng)計分析方法的核心是抽樣推斷(參數(shù)估計和假設(shè)檢驗(yàn)),然而數(shù)據(jù)收集方式的改變直接淡化了樣本的意義。比如基于瀏覽和偏好數(shù)據(jù)構(gòu)建的推薦算法,誠然改進(jìn)算法可以改善推薦效果,但是增加數(shù)據(jù)同樣可以達(dá)到相同的目的,甚至效果更好。即所謂的“大量的數(shù)據(jù)勝于好的算法”這與統(tǒng)計學(xué)的關(guān)鍵定律(大數(shù)定律和中心極限定理)是一致的。同樣,在大數(shù)據(jù)分析中,可以用數(shù)量來產(chǎn)生質(zhì)量,而不再需要用樣本來推斷總體。事實(shí)上,在某些場合(比如社會網(wǎng)絡(luò)數(shù)據(jù)),抽樣本身是困難的。數(shù)據(jù)導(dǎo)向的、基于算法的數(shù)據(jù)分析方法成為計算機(jī)時代統(tǒng)計學(xué)發(fā)展無法回避的一個重要趨勢。算法模型不僅對數(shù)據(jù)分布結(jié)構(gòu)有更少的限制性假定,而且在計算效率上有很大的優(yōu)勢。特別是一些積極的開源軟件的支撐,以及天生與計算機(jī)的相容性,使算法模型越來越受到學(xué)界的廣泛重視。大數(shù)據(jù)分析首先涉及到存儲、傳輸?shù)却髷?shù)據(jù)管理方面的問題。僅從數(shù)量上來看,信息爆炸、數(shù)據(jù)過剩、數(shù)據(jù)泛濫、數(shù)據(jù)墳?zāi)?、豐富的數(shù)據(jù)貧乏的知識……這些詞組表達(dá)的主要是我們匱乏的、捉襟見肘的存儲能力,同時,存儲數(shù)據(jù)中有利用價值的部分卻少之又少或塵封窖藏難以被發(fā)現(xiàn)。這除了對開采工具的渴求,當(dāng)時的情緒主要還是遷怨于盲目的記錄,把過多精力放在捕捉和存儲外在信息。在這種情況下,開采有用的知識等價于拋棄無用的數(shù)據(jù)。然而,大數(shù)據(jù)時代的思路改變了,開始變本加厲巨細(xì)靡遺地記錄一切可以記錄的數(shù)據(jù)。因?yàn)?數(shù)據(jù)再怎么拋棄還是會越來越多。我們不能通過刪減數(shù)據(jù)來適應(yīng)自己的無能,為自己不愿做出改變找借口,而是應(yīng)該面對現(xiàn)實(shí),提高處理海量數(shù)據(jù)的能力。退一步,該刪除哪些數(shù)據(jù)呢?當(dāng)前無用的數(shù)據(jù)將來也無用嗎?顯然刪除數(shù)據(jù)的成本要大于存儲的成本。大數(shù)據(jù)存儲目前廣泛應(yīng)用的是GFS、HDFS等基于計算機(jī)群組的文件系統(tǒng),它可以通過簡單增加計算機(jī)來無限地擴(kuò)充存儲能力。值得注意的是,分布式文件系統(tǒng)存儲的數(shù)據(jù)僅僅是整個架構(gòu)中最基礎(chǔ)的描述,是為其他部件服務(wù)的(比如MapReduce),并不能直接用于統(tǒng)計分析。而NoSQL這類分布式存儲系統(tǒng)可以實(shí)現(xiàn)高級查詢語言,事實(shí)上,有些RDBMS開始借鑒MapReduce的一些思路,而基于MapReduce的高級查詢語言也使MapReduce更接近傳統(tǒng)的數(shù)據(jù)庫編程,二者的差異將變得越來越模糊。大數(shù)據(jù)分析的可行性問題指的是,數(shù)據(jù)量可能大到已經(jīng)超過了目前的存儲能力,或者盡管沒有大到無法存儲,但是如果算法對內(nèi)存和處理器要求很高,那么數(shù)據(jù)相對也就“大”了。換句話說,可行性問題主要是,數(shù)據(jù)量太大了,或者算法的復(fù)雜度太高。大數(shù)據(jù)分析的有效性問題指的是,盡管目前的硬件條件允許,但是耗時太久,無法在可容忍的或者說可以接受的時間范圍內(nèi)完成。目前對有效性的解決辦法是采用并行處理。注意到,高性能計算和網(wǎng)格計算也是并行處理,但是對于大數(shù)據(jù)而言,由于很多節(jié)點(diǎn)需要訪問大量數(shù)據(jù),因此很多計算節(jié)點(diǎn)會因?yàn)榫W(wǎng)絡(luò)帶寬的限制而不得不空閑等待。而MapReduce會盡量在計算節(jié)點(diǎn)上存儲數(shù)據(jù),以實(shí)現(xiàn)數(shù)據(jù)的本地快速訪問。因此,數(shù)據(jù)本地化是MapReduce的核心特征。
四、結(jié)論
(一)數(shù)據(jù)科學(xué)不能簡單地理解為統(tǒng)計學(xué)的重命名,二者所指“數(shù)據(jù)”并非同一概念,前者更為寬泛,不僅包括結(jié)構(gòu)型數(shù)據(jù),而且還包括文本、圖像、視頻、音頻、網(wǎng)絡(luò)日志等非結(jié)構(gòu)型和半結(jié)構(gòu)型數(shù)據(jù);同時,數(shù)量級也是后者難以企及的(PB以上)。但是數(shù)據(jù)科學(xué)的理論基礎(chǔ)是統(tǒng)計學(xué),數(shù)據(jù)科學(xué)可以看作是統(tǒng)計學(xué)在研究范圍(對象)和分析方法上不斷擴(kuò)展的結(jié)果,特別是數(shù)據(jù)導(dǎo)向的、基于算法的數(shù)據(jù)分析方法越來越受到學(xué)界的廣泛重視。
(二)從某種程度上來講,大數(shù)據(jù)考驗(yàn)的并不是統(tǒng)計學(xué)的方法論,而是計算機(jī)科學(xué)技術(shù)和算法的適應(yīng)性。譬如大數(shù)據(jù)的存儲、管理以及分析架構(gòu),這些都是技術(shù)上的應(yīng)對,核心的數(shù)據(jù)分析邏輯并沒有實(shí)質(zhì)性的改變。因此,大數(shù)據(jù)分析的關(guān)鍵是計算機(jī)技術(shù)如何更新升級以適應(yīng)這種變革,以便可以像從前一樣滿足統(tǒng)計分析的需要。
(三)大數(shù)據(jù)問題很大程度上來自于商業(yè)領(lǐng)域,受商業(yè)利益驅(qū)動,因此數(shù)據(jù)科學(xué)還被普遍定義為,將數(shù)據(jù)轉(zhuǎn)化為有價值的商業(yè)信息的完整過程。這種強(qiáng)調(diào)應(yīng)用維度的觀點(diǎn)無可厚非,因?yàn)榇颂幨菙?shù)據(jù)產(chǎn)生的土壤,符合數(shù)據(jù)科學(xué)數(shù)據(jù)導(dǎo)向的理念。不過,早在20世紀(jì)90年代中期,已故圖靈獎得主格雷就已經(jīng)意識到,數(shù)據(jù)庫技術(shù)的下一個“大數(shù)據(jù)”挑戰(zhàn)將會來自科學(xué)領(lǐng)域而非商業(yè)領(lǐng)域(科學(xué)研究領(lǐng)域成為產(chǎn)生大數(shù)據(jù)的重要土壤)。他提出科學(xué)研究的“第四范式”是數(shù)據(jù),不同于實(shí)驗(yàn)、理論、和計算這三種范式,在該范式下,需要“將計算用于數(shù)據(jù),而非將數(shù)據(jù)用于計算”。這種觀點(diǎn)實(shí)際上將數(shù)據(jù)從計算科學(xué)中單獨(dú)區(qū)別開了。
(四)數(shù)據(jù)科學(xué)范式對統(tǒng)計分析過程的各個環(huán)節(jié)都提出了挑戰(zhàn),集中表現(xiàn)在數(shù)據(jù)收集和數(shù)據(jù)分析這兩個方面。數(shù)據(jù)收集不再是刻意的、經(jīng)過設(shè)計的,而更多的是用戶使用電子數(shù)碼產(chǎn)品的副產(chǎn)品或用戶自行產(chǎn)生的內(nèi)容,這種改變的直接影響是淡化了樣本的意義,同時增進(jìn)了數(shù)據(jù)的客觀性。事實(shí)上,在某些場合(比如社會網(wǎng)絡(luò)數(shù)據(jù)),抽樣本身是困難的。數(shù)據(jù)的存儲和分析也不再一味地依賴于高性能計算機(jī),而是轉(zhuǎn)向由中低端設(shè)備構(gòu)成的大規(guī)模群組并行處理,采用橫向擴(kuò)展的方式。
(五)目前關(guān)于大數(shù)據(jù)和數(shù)據(jù)科學(xué)的討論多集中于軟硬件架構(gòu)(IT視角)和商業(yè)領(lǐng)域(應(yīng)用視角),統(tǒng)計學(xué)的視角似乎被邊緣化了,比如覆蓋面、代表性等問題。統(tǒng)計學(xué)以數(shù)據(jù)為研究對象,它對大數(shù)據(jù)分析的影響也是顯而易見的,特別是天然的或潛在的平衡或相關(guān)關(guān)系不僅約束了數(shù)據(jù)質(zhì)量,而且為統(tǒng)計推斷和預(yù)測開辟了新的視野。
作者:魏瑾瑞 蔣萍
數(shù)據(jù)科學(xué)的統(tǒng)計學(xué)內(nèi)涵探討責(zé)任編輯:xchen1