數(shù)據(jù)從信息技術行業(yè)產(chǎn)生的那一刻起就一直存在,信息技術是基于信息的,而信息是來自于數(shù)據(jù)的。數(shù)據(jù)挖掘,數(shù)據(jù)倉庫,商務智能已經(jīng)被眾多企業(yè)實施了很多年,并且在很多年以前就承諾要幫助業(yè)務獲得更多的價值。但是我們也聽到了很多企業(yè)在實施商業(yè)智能和數(shù)據(jù)倉庫過程中的挑戰(zhàn)。我們經(jīng)常聽到企業(yè)實施數(shù)據(jù)倉庫和商業(yè)智能項目的失敗率超過50%甚至70%。就像JeffSmith(IBM的首席信息官所說)“數(shù)據(jù)倉庫和商業(yè)智能系統(tǒng)占據(jù)了CIO預算中的巨大的部分,并沒有產(chǎn)生對應的業(yè)務價值”是什么導致數(shù)據(jù)倉庫和商業(yè)智能解決方案不適用于現(xiàn)在的情況了呢?我們可以從行業(yè)經(jīng)典的數(shù)據(jù)挖掘的方法論(CISP-DM)開始探討。
CRISP-DM是一種廣泛采用的數(shù)據(jù)挖掘分析方法論,由SPSS、Teradata等公司起草于1999年發(fā)布第一版。該方法將一個數(shù)據(jù)分析項目分為業(yè)務理解(Business Understanding)、數(shù)據(jù)理解(DataUnderstanding)、數(shù)據(jù)準備(Data Preparation)、建模(Modeling)、驗證(Evaluation)、部署(Deployment)等6個階段(如下圖所示)的迭代過程。
對多數(shù)數(shù)據(jù)分析工作來說,人們并不希望上述反復交替的過程,因為反復交替意味著工作的重復和低效。而這種現(xiàn)象出現(xiàn)在公認的標準中,是因為分析過程存在極大的不確定性,這樣的反復往往是不可避免的。
長期以來,很多人用 CRISP-DM 指導工業(yè)大數(shù)據(jù)分析的過程。在很多場景下,這個模型的原理是可行的、行之有效的,但是當我們把它用于工業(yè)過程數(shù)據(jù)分析時,卻發(fā)現(xiàn)問題的復雜度會急劇上升,各個步驟中反復的次數(shù)大大增加,驗證評估不合格導致從頭再來的情況非常普遍。這些現(xiàn)象,導致工業(yè)大數(shù)據(jù)分析工作的效率顯著下降。
CRISP-DM 模型在工業(yè)領域的應用遇到一些問題,造成了該模型落地困難,主要的難點表現(xiàn)在以下三個方面:
1)工業(yè)數(shù)據(jù)關聯(lián)關系復雜
無論是生產(chǎn)產(chǎn)品的工廠還是作為工業(yè)產(chǎn)品的設備,本質(zhì)上都是多個要素互相作用所組成的系統(tǒng),而它們的運行環(huán)境,也可以看成更大的系統(tǒng)。所以,我們可以用系統(tǒng)的觀點,統(tǒng)一地看待工業(yè)大數(shù)據(jù)所針對的工業(yè)對象。
研究一個工業(yè)系統(tǒng),要把注意力集中在多個要素互相影響、互相作用,否則只會得到片面甚至錯誤的結(jié)論。正如列寧所言:“如果不是從整體上、不是從聯(lián)系中掌握事實;如果事實是零碎和隨意挑出來的,那它們就只能是一種兒戲,或者連兒戲也不如。”
2) 工業(yè)數(shù)據(jù)質(zhì)量差
從某種意義上說,工業(yè)大數(shù)據(jù)是工業(yè)系統(tǒng)在數(shù)字空間的映像。要想通過數(shù)據(jù)認識工業(yè)對象或過程,數(shù)據(jù)本身應該體現(xiàn)對象的系統(tǒng)性。然而受到現(xiàn)實條件的約束,數(shù)據(jù)往往是工業(yè)對象不完整的體現(xiàn)。而且很多數(shù)據(jù)來源于某些特定的工作點上,參數(shù)波動中包含大量檢測誤差、數(shù)據(jù)的信噪比低。這就給數(shù)據(jù)分析過程帶來了極大的不確定性、并容易對分析過程產(chǎn)生誤導。
3) 工業(yè)場景的分析要求高
工業(yè)界對不確定性的容忍度很低,這就要求數(shù)據(jù)分析結(jié)果盡可能地準確可靠。分析要求高而數(shù)據(jù)條件差、對象復雜性高是分析過程中必須面對的矛盾。在數(shù)據(jù)分析的過程中,這一矛盾表現(xiàn)為容易出現(xiàn)各種假象和干擾、分析結(jié)果總是難以滿足用戶的使用需求等。要解決這些矛盾,必須將工業(yè)過程的領域?qū)I(yè)知識、業(yè)務機理與數(shù)據(jù)分析過程有機地融合起來,貫穿于數(shù)據(jù)分析的每一個階段,這也使得工業(yè)大數(shù)據(jù)對業(yè)務理解的深度有較高的要求。
CRISP-DM 方法基本適合工業(yè)大數(shù)據(jù)分析,但必須補充進新的內(nèi)涵才能讓方法有效、讓工業(yè)大數(shù)據(jù)分析成為有效的經(jīng)濟活動。如前所述,工業(yè)大數(shù)據(jù)分析過程的效率低下,很可能是大量無效的循環(huán)往復導致的。所以,工業(yè)大數(shù)據(jù)分析方法的關鍵,是如何減少不必要的反復、提高數(shù)據(jù)分析的效率。
在工業(yè)大數(shù)據(jù)分析過程中用好 CRISP-DM,關鍵是減少上下步驟之間的反復、避免單向箭頭變成雙向,還尤其是要盡量減少模型驗證失敗后重新進入業(yè)務理解這樣大的反復。
減少無效反復的重要辦法是采用工程上常見的“以終為始”的思維方式。在進行深入研究之前,要進行一個相對全面的調(diào)研,從如何 應用、如何部署開始,反推需要進行的研究。
“反復”是探索過程的特點以及知識和信息不足導致的。數(shù)據(jù)分析是一個探索知識的過程,不可能徹底消除這種現(xiàn)象。所以,我們需要追求的,是減少不必要的探索。其中,“不必要的探索”一般是由于數(shù)據(jù)分析人員沒有充分掌握已有的領域知識和相關信息導致的。所以,要減少不必要的探索,關鍵是數(shù)據(jù)分析知識和領域知識、相關信息的有機結(jié)合。
實際分析工作中又不能假設或者要求數(shù)據(jù)分析人員事先對這些知識和信息有著充分的理解。所以,要解決這個問題,關鍵是設法讓分析師在分析的過程中,更加主動、有針對性地補充相關知識,即所謂“人在環(huán)上”。
最后,要努力提高數(shù)據(jù)分析的自動化程度,充分利用計算機的計算和存儲能力、減少人為的介入。由于人的介入能夠使得分析效率大大降低,減少人的介入,也就能大大提高工作的效率。
CRISP-DM 模型在工業(yè)大數(shù)據(jù)的中的應用推進,主要分以下幾個階段:
1) 業(yè)務理解階段:該階段的目標是明確業(yè)務需求和數(shù)據(jù)分析的目標,將模糊的用戶需求轉(zhuǎn)化成明確的分析問題,必須清晰到計劃采取什么手段、解決什么問題,要將每一個分析問題,細化成明確的數(shù)學問題,同時基于業(yè)務理解制定分析項目的評估方案。
2) 數(shù)據(jù)理解階段:該階段是目標建立數(shù)據(jù)和業(yè)務的關聯(lián)關系,從數(shù)據(jù)的角度去深度的解讀業(yè)務。包括發(fā)現(xiàn)數(shù)據(jù)的內(nèi)部屬性,或是探測引起興趣的子集去形成隱含信息的假設;識別數(shù)據(jù)的質(zhì)量問題;對數(shù)據(jù)進行可視化探索等。
3) 數(shù)據(jù)準備階段:該階段的目標是為數(shù)據(jù)的建模分析提供干凈、有效的輸入數(shù)據(jù)源。首先基于業(yè)務目標篩選有效數(shù)據(jù),篩選的數(shù)據(jù)能夠表征業(yè)務問題的關鍵影響因素;其次對數(shù)據(jù)的質(zhì)量進行檢查和處理,處理數(shù)據(jù)的缺失情況、異常情況等;最后對數(shù)據(jù)進行歸約、集成變換等,輸出建??捎玫臄?shù)據(jù)源。
4) 數(shù)據(jù)建模階段:該階段是基于業(yè)務和數(shù)據(jù)的理解,選擇合適的算法和建模工具,對數(shù)據(jù)中的規(guī)律進行固化、提取,最后輸出數(shù)據(jù)分析模型。首先基于業(yè)務經(jīng)驗、數(shù)據(jù)建模經(jīng)驗、對業(yè)務問題進行邏輯化描述,探索解決問題的算法,反復迭代選擇一個最優(yōu)算法方案;其次基于輸入數(shù)據(jù)來加工關鍵的因子的特征變量,作為建模輸入變量,建立有效可靠的數(shù)據(jù)模型。
5) 模型的驗證和評估階段:首先從業(yè)務的角度評估模型的精度問題,是否能夠滿足現(xiàn)有業(yè)務的要求;其次分析模型的中影響因子的完備性,為模型的下一步迭代指明優(yōu)化路徑;最后考察模型的假設條件,是否滿足實際落地的條件,為模型的部署進行可行性驗證。
6) 模型的部署階段:在該階段中,首先要基于分析目標,制定模型的使用方案和部署方案,并提前為模型的部署做好環(huán)境的準備工作;其次為模型部署過程中出現(xiàn)的質(zhì)量問題、運行問題、精度問題等,提前做好預備方案;
最后基于模型試運行后的結(jié)果,制定模型的持續(xù)優(yōu)化方案。
寄語
隨著國家政策激勵以及工業(yè)大數(shù)據(jù)應用模式的逐步成熟,工業(yè)大數(shù)據(jù)進入快速發(fā)展時期,未來中國工業(yè)大數(shù)據(jù)市場將持續(xù)快速增長。
工業(yè)大數(shù)據(jù)技術產(chǎn)品創(chuàng)新正逐漸從技術驅(qū)動轉(zhuǎn)向應用驅(qū)動,廣闊的市場空間和大量的應用需求為工業(yè)大數(shù)據(jù)發(fā)展提供了強大的驅(qū)動力。
工業(yè)大數(shù)據(jù)將成為推動制造業(yè)創(chuàng)新發(fā)展的重要基礎,為中國的工業(yè)升級和轉(zhuǎn)型注入強大動力。企業(yè)在新技術條件下,實現(xiàn)貫穿于產(chǎn)品設計、生產(chǎn)、管理、倉儲、物流、服務等全部流程和環(huán)節(jié)的大數(shù)據(jù)采集、存儲、管理和分析,從大數(shù)據(jù)中挖掘出其中的隱含價值,達到提升生產(chǎn)效率、提高產(chǎn)品質(zhì)量、增強管理能力、降低生產(chǎn)成本等目的,提升了企業(yè)生產(chǎn)力、競爭力和創(chuàng)新力。
伴隨著工業(yè)大數(shù)據(jù)分析技術的逐漸成熟、產(chǎn)業(yè)領域的逐漸成型、應用場景的不斷延伸、觀念意識的不斷深化,工業(yè)大數(shù)據(jù)必將迎來高速發(fā)展的歷史階段。我們抓住發(fā)展機遇,努力推動中國工業(yè)大數(shù)據(jù)的發(fā)展,針對企業(yè)的個性需求,結(jié)合中國工業(yè)發(fā)展的自身特點,走出中國特色的工業(yè)大數(shù)據(jù)創(chuàng)新路線。