何時需要使用數(shù)據(jù)挖掘工具
數(shù)據(jù)挖掘,簡單說,就是從大量的數(shù)據(jù)中,抽取出潛在的、有價值的知識、模型或規(guī)則的過程。隨著信息技術(shù)的迅速發(fā)展和企業(yè)信息化的深入,企業(yè)積累的數(shù)據(jù)越來越多。數(shù)據(jù)的背后應(yīng)隱藏著許多重要信息,企業(yè)自然希望能夠?qū)ζ溥M行更高層次的分析,以便更好地利用這些數(shù)據(jù)。數(shù)據(jù)庫系統(tǒng)可以高效地實現(xiàn)數(shù)據(jù)的錄入、修改、統(tǒng)計、查詢等功能,但無法發(fā)現(xiàn)數(shù)據(jù)中存在的關(guān)系和規(guī)則,無法根據(jù)現(xiàn)有的數(shù)據(jù)預(yù)測未來的發(fā)展趨勢,導(dǎo)致了“數(shù)據(jù)爆炸但知識貧乏”的現(xiàn)象。
可以說,數(shù)據(jù)挖掘是企業(yè)數(shù)據(jù)積累的必然結(jié)果和自然需要。而各行各業(yè)日益加劇的市場競爭,進一步加速了對數(shù)據(jù)挖掘的需求和數(shù)據(jù)挖掘技術(shù)的發(fā)展??蛻舯3?、客戶價值分析、客戶流失預(yù)測、客戶信用分析、交叉銷售等等,已經(jīng)不再是誘人的口號,而是已經(jīng)成功應(yīng)用到電信、金融、零售、保險等行業(yè)。
此外數(shù)據(jù)倉庫技術(shù)的發(fā)展和廣泛實施為有效的數(shù)據(jù)挖掘提供了可能。IDC的調(diào)研報告中,2003年數(shù)據(jù)倉庫將達(dá)到200億美元的市場規(guī)模。數(shù)據(jù)倉庫將海量復(fù)雜的客戶行為數(shù)據(jù)集中起來,建立一個整合的、結(jié)構(gòu)化的數(shù)據(jù)模型,在此基礎(chǔ)上對數(shù)據(jù)進行標(biāo)準(zhǔn)化、抽象化、規(guī)范化分類、分析,為企業(yè)管理層提供及時的決策信息,為企業(yè)業(yè)務(wù)部門提供有效的反饋數(shù)據(jù)?,F(xiàn)在,NCR、IBM、Oracle等等廠商都在數(shù)據(jù)倉庫領(lǐng)域有所建樹,一些預(yù)見性的模型和解決方案已經(jīng)被建立起來,數(shù)據(jù)倉庫已不僅僅是簡單的數(shù)據(jù)存儲,而成為對客戶資料進行分析、挖掘客戶潛力的基石。
可以說,如果企業(yè)在發(fā)展中已經(jīng)積累了大量的數(shù)據(jù),也希望從這些寶貴的信息財富中得到為企業(yè)降低成本、增加利潤、提高核心競爭能力效率的秘訣,那么,該是實施數(shù)據(jù)挖掘的時候了。當(dāng)然首先建立企業(yè)數(shù)據(jù)倉庫是有效進行數(shù)據(jù)挖掘的基礎(chǔ)。
如何進行數(shù)據(jù)挖掘工具的選擇
數(shù)據(jù)挖掘和數(shù)據(jù)倉庫一樣是一個過程,只有將數(shù)據(jù)挖掘工具提供的技術(shù)和實施經(jīng)驗與企業(yè)的業(yè)務(wù)邏輯和需求緊密結(jié)合,并在實施過程中不斷磨合,才能夠取得成功。因此我們在選擇數(shù)據(jù)挖掘工具時,要全面考慮多方因素,其中應(yīng)著重關(guān)注一下四點:
1. 數(shù)據(jù)挖掘工具與數(shù)據(jù)倉庫能夠緊密結(jié)合
●可以減少數(shù)據(jù)轉(zhuǎn)換的時間。
盡管數(shù)據(jù)挖掘并不要求一定要在數(shù)據(jù)倉庫之上進行,但數(shù)據(jù)挖掘的種種問題將耗費巨大的時間和資源,如從不同的數(shù)據(jù)集市中進行數(shù)據(jù)采集,數(shù)據(jù)清洗,數(shù)據(jù)變換等等。一旦需要建立新的模型,您將不得不再次重復(fù)這個過程。大約70%的數(shù)據(jù)挖掘過程將花費在數(shù)據(jù)準(zhǔn)備階段。數(shù)據(jù)倉庫通過減少數(shù)據(jù)冗余和系統(tǒng)管理使得數(shù)據(jù)挖掘更可行,并使模型開發(fā)人員可以更集中于對數(shù)據(jù)的分析。
●可以充分利用整個企業(yè)的數(shù)據(jù)和詳細(xì)數(shù)據(jù)。
在數(shù)據(jù)倉庫內(nèi)直接進行的數(shù)據(jù)挖掘提供了集中式數(shù)據(jù)挖掘體系,可以對數(shù)據(jù)倉庫中所有數(shù)據(jù)進行分析,包括了企業(yè)的詳細(xì)數(shù)據(jù),這樣就能夠挖掘出更多、更合理的模式。
●可以充分利用數(shù)據(jù)倉庫的處理能力
在數(shù)據(jù)倉庫內(nèi)直接進行的數(shù)據(jù)挖掘,開發(fā)模型、測試模型和部署模型都能夠充分利用數(shù)據(jù)倉庫的處理能力,得到更好的性能;另外,多個數(shù)據(jù)挖掘項目可以也同時進行。
2. 數(shù)據(jù)挖掘的功能和方法
數(shù)據(jù)挖掘過程一般包括數(shù)據(jù)抽樣、數(shù)據(jù)描述和預(yù)處理、數(shù)據(jù)變換、模型建立、模型評估和發(fā)布等步驟。數(shù)據(jù)挖掘工具應(yīng)該能夠為每個步驟提供相應(yīng)的功能集。
數(shù)據(jù)挖掘工具必須提供常用的數(shù)據(jù)挖掘模式,如分類模式、聚類模式、回歸模式、關(guān)聯(lián)模式、序列模式等。
數(shù)據(jù)挖掘工具還應(yīng)該能夠方便地提供挖掘出的模型(例如能夠用SQL語句導(dǎo)出模型),從而在企業(yè)的應(yīng)用中集成使用該模型。
3. 數(shù)據(jù)挖掘工具的伸縮性
數(shù)據(jù)挖掘工具的伸縮性主要考慮兩個方面,一是數(shù)據(jù)量(行)增大時的性能表現(xiàn),二是當(dāng)挖掘維度增加時的性能表現(xiàn);如果兩種情況下挖掘時間呈線性增長,則可認(rèn)為工具的伸縮性較好。
一般而言,能夠緊密結(jié)合數(shù)據(jù)倉庫,充分利用數(shù)據(jù)倉庫處理能力的數(shù)據(jù)挖掘工具有更好的伸縮性。
4. 數(shù)據(jù)挖掘工具的可視化
數(shù)據(jù)挖掘工具是否能夠?qū)崿F(xiàn)數(shù)據(jù)可視化、挖掘模型可視化、挖掘過程可視化,可視化程度、質(zhì)量和交互靈活性嚴(yán)重影響到數(shù)據(jù)挖掘系統(tǒng)的使用和解釋能力。
當(dāng)前主流的挖掘工具如SAS Enterprise Miner、IBM Intelligent Miner、Teradata Warehouse Miner、SPSS Clementine等都能夠提供常用的挖掘過程和挖掘模式。
總之,每個企業(yè)必須結(jié)合自己的實際情況何需要,充分考慮廠商在數(shù)據(jù)倉庫領(lǐng)域的咨詢和實施經(jīng)驗,避免踏入僅僅“選擇工具”的陷阱,力求獲得一個完整的數(shù)據(jù)倉庫和數(shù)據(jù)挖掘解決方案,并和廠商一起完成這個復(fù)雜的、富有挑戰(zhàn)性、創(chuàng)造性并充滿樂趣的過程。惟其如此,才能夠?qū)?shù)據(jù)倉庫和數(shù)據(jù)挖掘真正融入企業(yè)日常的經(jīng)營決策之中。 |