免费视频淫片aa毛片_日韩高清在线亚洲专区vr_日韩大片免费观看视频播放_亚洲欧美国产精品完整版

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
推薦閱讀|工業(yè)大數(shù)據(jù)分析方法論:基于CRISP-DM方法論
編者按:如何滿足不同行業(yè)、不同發(fā)展階段的企業(yè)的獨特需求呢?需要涉及到根據(jù)不同企業(yè)的實際情況來制定轉(zhuǎn)型策略了。兩化融合、智能制造成熟度模型、跨行業(yè)數(shù)據(jù)挖掘標準流程等都是可以用來幫助企業(yè)制定策略、做出數(shù)字化轉(zhuǎn)型的規(guī)劃和路線圖的方法和工具。本公眾號會陸續(xù)推出系列文章介紹此類工具。

數(shù)據(jù)從信息技術行業(yè)產(chǎn)生的那一刻起就一直存在,信息技術是基于信息的,而信息是來自于數(shù)據(jù)的。數(shù)據(jù)挖掘,數(shù)據(jù)倉庫,商務智能已經(jīng)被眾多企業(yè)實施了很多年,并且在很多年以前就承諾要幫助業(yè)務獲得更多的價值。但是我們也聽到了很多企業(yè)在實施商業(yè)智能和數(shù)據(jù)倉庫過程中的挑戰(zhàn)。我們經(jīng)常聽到企業(yè)實施數(shù)據(jù)倉庫和商業(yè)智能項目的失敗率超過50%甚至70%。就像JeffSmith(IBM的首席信息官所說)“數(shù)據(jù)倉庫和商業(yè)智能系統(tǒng)占據(jù)了CIO預算中的巨大的部分,并沒有產(chǎn)生對應的業(yè)務價值”是什么導致數(shù)據(jù)倉庫和商業(yè)智能解決方案不適用于現(xiàn)在的情況了呢?我們可以從行業(yè)經(jīng)典的數(shù)據(jù)挖掘的方法論(CISP-DM)開始探討。

CRISP-DM方法論

CRISP-DM是一種廣泛采用的數(shù)據(jù)挖掘分析方法論,由SPSS、Teradata等公司起草于1999年發(fā)布第一版。該方法將一個數(shù)據(jù)分析項目分為業(yè)務理解(Business Understanding)、數(shù)據(jù)理解(DataUnderstanding)、數(shù)據(jù)準備(Data Preparation)、建模(Modeling)、驗證(Evaluation)、部署(Deployment)等6個階段(如下圖所示)的迭代過程。

對多數(shù)數(shù)據(jù)分析工作來說,人們并不希望上述反復交替的過程,因為反復交替意味著工作的重復和低效。而這種現(xiàn)象出現(xiàn)在公認的標準中,是因為分析過程存在極大的不確定性,這樣的反復往往是不可避免的。

長期以來,很多人用 CRISP-DM 指導工業(yè)大數(shù)據(jù)分析的過程。在很多場景下,這個模型的原理是可行的、行之有效的,但是當我們把它用于工業(yè)過程數(shù)據(jù)分析時,卻發(fā)現(xiàn)問題的復雜度會急劇上升,各個步驟中反復的次數(shù)大大增加,驗證評估不合格導致從頭再來的情況非常普遍。這些現(xiàn)象,導致工業(yè)大數(shù)據(jù)分析工作的效率顯著下降。

CRISP-DM 模型的工業(yè)領域落地難點

CRISP-DM 模型在工業(yè)領域的應用遇到一些問題,造成了該模型落地困難,主要的難點表現(xiàn)在以下三個方面:

1)工業(yè)數(shù)據(jù)關聯(lián)關系復雜

無論是生產(chǎn)產(chǎn)品的工廠還是作為工業(yè)產(chǎn)品的設備,本質(zhì)上都是多個要素互相作用所組成的系統(tǒng),而它們的運行環(huán)境,也可以看成更大的系統(tǒng)。所以,我們可以用系統(tǒng)的觀點,統(tǒng)一地看待工業(yè)大數(shù)據(jù)所針對的工業(yè)對象。

研究一個工業(yè)系統(tǒng),要把注意力集中在多個要素互相影響、互相作用,否則只會得到片面甚至錯誤的結(jié)論。正如列寧所言:“如果不是從整體上、不是從聯(lián)系中掌握事實;如果事實是零碎和隨意挑出來的,那它們就只能是一種兒戲,或者連兒戲也不如。”

2) 工業(yè)數(shù)據(jù)質(zhì)量差

從某種意義上說,工業(yè)大數(shù)據(jù)是工業(yè)系統(tǒng)在數(shù)字空間的映像。要想通過數(shù)據(jù)認識工業(yè)對象或過程,數(shù)據(jù)本身應該體現(xiàn)對象的系統(tǒng)性。然而受到現(xiàn)實條件的約束,數(shù)據(jù)往往是工業(yè)對象不完整的體現(xiàn)。而且很多數(shù)據(jù)來源于某些特定的工作點上,參數(shù)波動中包含大量檢測誤差、數(shù)據(jù)的信噪比低。這就給數(shù)據(jù)分析過程帶來了極大的不確定性、并容易對分析過程產(chǎn)生誤導。

3) 工業(yè)場景的分析要求高

工業(yè)界對不確定性的容忍度很低,這就要求數(shù)據(jù)分析結(jié)果盡可能地準確可靠。分析要求高而數(shù)據(jù)條件差、對象復雜性高是分析過程中必須面對的矛盾。在數(shù)據(jù)分析的過程中,這一矛盾表現(xiàn)為容易出現(xiàn)各種假象和干擾、分析結(jié)果總是難以滿足用戶的使用需求等。要解決這些矛盾,必須將工業(yè)過程的領域?qū)I(yè)知識、業(yè)務機理與數(shù)據(jù)分析過程有機地融合起來,貫穿于數(shù)據(jù)分析的每一個階段,這也使得工業(yè)大數(shù)據(jù)對業(yè)務理解的深度有較高的要求。

在工業(yè)大數(shù)據(jù)分析過程中使用 CRISP-DM

CRISP-DM 方法基本適合工業(yè)大數(shù)據(jù)分析,但必須補充進新的內(nèi)涵才能讓方法有效、讓工業(yè)大數(shù)據(jù)分析成為有效的經(jīng)濟活動。如前所述,工業(yè)大數(shù)據(jù)分析過程的效率低下,很可能是大量無效的循環(huán)往復導致的。所以,工業(yè)大數(shù)據(jù)分析方法的關鍵,是如何減少不必要的反復、提高數(shù)據(jù)分析的效率。

在工業(yè)大數(shù)據(jù)分析過程中用好 CRISP-DM,關鍵是減少上下步驟之間的反復、避免單向箭頭變成雙向,還尤其是要盡量減少模型驗證失敗后重新進入業(yè)務理解這樣大的反復。

減少無效反復的重要辦法是采用工程上常見的“以終為始”的思維方式。在進行深入研究之前,要進行一個相對全面的調(diào)研,從如何 應用、如何部署開始,反推需要進行的研究。

“反復”是探索過程的特點以及知識和信息不足導致的。數(shù)據(jù)分析是一個探索知識的過程,不可能徹底消除這種現(xiàn)象。所以,我們需要追求的,是減少不必要的探索。其中,“不必要的探索”一般是由于數(shù)據(jù)分析人員沒有充分掌握已有的領域知識和相關信息導致的。所以,要減少不必要的探索,關鍵是數(shù)據(jù)分析知識和領域知識、相關信息的有機結(jié)合。

實際分析工作中又不能假設或者要求數(shù)據(jù)分析人員事先對這些知識和信息有著充分的理解。所以,要解決這個問題,關鍵是設法讓分析師在分析的過程中,更加主動、有針對性地補充相關知識,即所謂“人在環(huán)上”。

最后,要努力提高數(shù)據(jù)分析的自動化程度,充分利用計算機的計算和存儲能力、減少人為的介入。由于人的介入能夠使得分析效率大大降低,減少人的介入,也就能大大提高工作的效率。

CRISP-DM 模型在工業(yè)大數(shù)據(jù)的中的應用推進,主要分以下幾個階段:


1業(yè)務理解階段:該階段的目標是明確業(yè)務需求和數(shù)據(jù)分析的目標,將模糊的用戶需求轉(zhuǎn)化成明確的分析問題,必須清晰到計劃采取什么手段、解決什么問題,要將每一個分析問題,細化成明確的數(shù)學問題,同時基于業(yè)務理解制定分析項目的評估方案。

2) 數(shù)據(jù)理解階段:該階段是目標建立數(shù)據(jù)和業(yè)務的關聯(lián)關系,從數(shù)據(jù)的角度去深度的解讀業(yè)務。包括發(fā)現(xiàn)數(shù)據(jù)的內(nèi)部屬性,或是探測引起興趣的子集去形成隱含信息的假設;識別數(shù)據(jù)的質(zhì)量問題;對數(shù)據(jù)進行可視化探索等。

3) 數(shù)據(jù)準備階段:該階段的目標是為數(shù)據(jù)的建模分析提供干凈、有效的輸入數(shù)據(jù)源。首先基于業(yè)務目標篩選有效數(shù)據(jù),篩選的數(shù)據(jù)能夠表征業(yè)務問題的關鍵影響因素;其次對數(shù)據(jù)的質(zhì)量進行檢查和處理,處理數(shù)據(jù)的缺失情況、異常情況等;最后對數(shù)據(jù)進行歸約、集成變換等,輸出建??捎玫臄?shù)據(jù)源。

4) 數(shù)據(jù)建模階段:該階段是基于業(yè)務和數(shù)據(jù)的理解,選擇合適的算法和建模工具,對數(shù)據(jù)中的規(guī)律進行固化、提取,最后輸出數(shù)據(jù)分析模型。首先基于業(yè)務經(jīng)驗、數(shù)據(jù)建模經(jīng)驗、對業(yè)務問題進行邏輯化描述,探索解決問題的算法,反復迭代選擇一個最優(yōu)算法方案;其次基于輸入數(shù)據(jù)來加工關鍵的因子的特征變量,作為建模輸入變量,建立有效可靠的數(shù)據(jù)模型。

5) 模型的驗證和評估階段:首先從業(yè)務的角度評估模型的精度問題,是否能夠滿足現(xiàn)有業(yè)務的要求;其次分析模型的中影響因子的完備性,為模型的下一步迭代指明優(yōu)化路徑;最后考察模型的假設條件,是否滿足實際落地的條件,為模型的部署進行可行性驗證。

6) 模型的部署階段:在該階段中,首先要基于分析目標,制定模型的使用方案和部署方案,并提前為模型的部署做好環(huán)境的準備工作;其次為模型部署過程中出現(xiàn)的質(zhì)量問題、運行問題、精度問題等,提前做好預備方案;

最后基于模型試運行后的結(jié)果,制定模型的持續(xù)優(yōu)化方案。

寄語

隨著國家政策激勵以及工業(yè)大數(shù)據(jù)應用模式的逐步成熟,工業(yè)大數(shù)據(jù)進入快速發(fā)展時期,未來中國工業(yè)大數(shù)據(jù)市場將持續(xù)快速增長。

工業(yè)大數(shù)據(jù)技術產(chǎn)品創(chuàng)新正逐漸從技術驅(qū)動轉(zhuǎn)向應用驅(qū)動,廣闊的市場空間和大量的應用需求為工業(yè)大數(shù)據(jù)發(fā)展提供了強大的驅(qū)動力。

工業(yè)大數(shù)據(jù)將成為推動制造業(yè)創(chuàng)新發(fā)展的重要基礎,為中國的工業(yè)升級和轉(zhuǎn)型注入強大動力。企業(yè)在新技術條件下,實現(xiàn)貫穿于產(chǎn)品設計、生產(chǎn)、管理、倉儲、物流、服務等全部流程和環(huán)節(jié)的大數(shù)據(jù)采集、存儲、管理和分析,從大數(shù)據(jù)中挖掘出其中的隱含價值,達到提升生產(chǎn)效率、提高產(chǎn)品質(zhì)量、增強管理能力、降低生產(chǎn)成本等目的,提升了企業(yè)生產(chǎn)力、競爭力和創(chuàng)新力。

伴隨著工業(yè)大數(shù)據(jù)分析技術的逐漸成熟、產(chǎn)業(yè)領域的逐漸成型、應用場景的不斷延伸、觀念意識的不斷深化,工業(yè)大數(shù)據(jù)必將迎來高速發(fā)展的歷史階段。我們抓住發(fā)展機遇,努力推動中國工業(yè)大數(shù)據(jù)的發(fā)展,針對企業(yè)的個性需求,結(jié)合中國工業(yè)發(fā)展的自身特點,走出中國特色的工業(yè)大數(shù)據(jù)創(chuàng)新路線。

本站僅提供存儲服務,所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊舉報。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
數(shù)據(jù)挖掘方法論
干貨:數(shù)據(jù)挖掘方法論與工程化思考
[分享]工業(yè)4.0大數(shù)據(jù)之工業(yè)工程數(shù)據(jù)建模方法論
數(shù)據(jù)挖掘概述 ——以電信業(yè)數(shù)據(jù)挖掘為例_數(shù)谷網(wǎng)
數(shù)據(jù)挖掘與分析的六種經(jīng)典方法論
跨行業(yè)數(shù)據(jù)挖掘標準流程CRISP-DM
更多類似文章 >>
生活服務
分享 收藏 導長圖 關注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服