免费视频淫片aa毛片_日韩高清在线亚洲专区vr_日韩大片免费观看视频播放_亚洲欧美国产精品完整版

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
數(shù)據(jù)挖掘標準規(guī)范之CRISP

一、前言

  每每提到數(shù)據(jù)挖掘,總有些人上來就是ETL、是算法、是數(shù)學模型,作為搞工程實施的我而言,很是頭疼。其實作為數(shù)據(jù)挖掘的而言,算法只是其實現(xiàn)手段、是工具和實現(xiàn)手段而已,我們不是在創(chuàng)造算法(國外職業(yè)搞研究的除外),我們是在使用算法而已,換句話說我們是算法的工程化實踐者。數(shù)據(jù)挖掘非今日之物,大數(shù)據(jù)挖掘也不是一個孤立的概念,其實質還是采用傳統(tǒng)的數(shù)據(jù)挖掘的方法,只是其實現(xiàn)工具發(fā)生了變化而已,本質的東西還在。引入發(fā)布近20年前的CRISP-DM數(shù)據(jù)挖掘標準規(guī)范模型,供大家共享,希望能有人喜歡。

二、框架

三、詳述

3.1 業(yè)務理解(Business Understanding)

   最初的階段集中在理解項目目標和從業(yè)務的角度理解需求,同時將這個知識轉化為數(shù)據(jù)挖掘問題的定義和完成目標的初步計劃。

3.2  數(shù)據(jù)理解(Data Understanding)

   數(shù)據(jù)理解階段從初始的數(shù)據(jù)收集開始,通過一些活動的處理,目的是熟悉數(shù)據(jù),識別數(shù)據(jù)的質量問題,首次發(fā)現(xiàn)數(shù)據(jù)的內部屬性,或是探測引起興趣的子集去形成隱含信息的假設。

3.3  數(shù)據(jù)準備(Data Preparation)

   數(shù)據(jù)準備階段包括從未處理的數(shù)據(jù)中構造最終數(shù)據(jù)集的所有活動。這些數(shù)據(jù)將是模型工具的輸入值。這個階段的任務能執(zhí)行多次,沒有任何規(guī)定的順序。任務包括表、記錄和屬性的選擇,以及為模型工具轉換和清洗數(shù)據(jù)。

3.4  建模(Modeling)

   在這個階段,可以選擇和應用不同的模型技術,模型參數(shù)被調整到最佳的數(shù)值。一般,有些技術可以解決一類相同的數(shù)據(jù)挖掘問題。有些技術在數(shù)據(jù)形成上有特殊要求,因此需要經(jīng)常跳回到數(shù)據(jù)準備階段。

3.5  評估(Evaluation)

  到這個階段,你已經(jīng)從數(shù)據(jù)分析的角度建立了一個高質量顯示的模型。在開始最后部署模型之前,重要的事情是徹底地評估模型,檢查構造模型的步驟,確保 模型可以完成業(yè)務目標。這個階段的關鍵目的是確定是否有重要業(yè)務問題沒有被充分的考慮。在這個階段結束后,一個數(shù)據(jù)挖掘結果使用的決定必須達成。

3.6  部署(Deployment)

   通常,模型的創(chuàng)建不是項目的結束。模型的作用是從數(shù)據(jù)中找到知識,獲得的知識需要便于用戶使用的方式重新組織和展現(xiàn)。根據(jù)需求,這個階段可以產生簡 單的報告,或是實現(xiàn)一個比較復雜的、可重復的數(shù)據(jù)挖掘過程。在很多案例中,這個階段是由客戶而不是數(shù)據(jù)分析人員承擔部署的工作。

四、總結

  從以上流程和規(guī)范我們可以看到,算法實現(xiàn)過程,其實只占了數(shù)據(jù)挖掘的一部分,真正要想實現(xiàn)數(shù)據(jù)挖掘,并達到數(shù)據(jù)挖掘的目標,我們需要做的事情還有很多。

本站僅提供存儲服務,所有內容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權內容,請點擊舉報
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
數(shù)據(jù)挖掘方法論
Excel應用大全 | 什么是CRISP-DM 模型
CRISP
跨行業(yè)數(shù)據(jù)挖掘標準流程CRISP-DM
CRISP-DM 數(shù)據(jù)挖掘通用流程
數(shù)據(jù)挖掘概述 ——以電信業(yè)數(shù)據(jù)挖掘為例_數(shù)谷網(wǎng)
更多類似文章 >>
生活服務
分享 收藏 導長圖 關注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服