免费视频淫片aa毛片_日韩高清在线亚洲专区vr_日韩大片免费观看视频播放_亚洲欧美国产精品完整版

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
數(shù)據(jù)挖掘--極具發(fā)展前景的新領域
數(shù)據(jù)挖掘--極具發(fā)展前景的新領域

一、數(shù)據(jù)挖掘是什么?

        人們在日常生活中經(jīng)常會遇到這樣的情況:超市的經(jīng)營者希望將經(jīng)常被同時購買的商品放在一起,以增加銷售;保險公司想知道購買保險的客戶一般具有哪些特征;醫(yī)學研究人員希望從已有的成千上萬份病歷中找出患某種疾病的病人的共同特征,從而為治愈這種疾病提供一些幫助。對于以上問題,現(xiàn)有信息管理系統(tǒng)中的數(shù)據(jù)分析工具無法給出答案。因為無論是查詢、統(tǒng)計還是報表,其處理方式都是對指定的數(shù)據(jù)進行簡單的數(shù)字處理,而不能對這些數(shù)據(jù)所包含的內(nèi)在信息進行提取。隨著信息管理系統(tǒng)的廣泛應用和數(shù)據(jù)量激增,人們希望能夠提供更高層次的數(shù)據(jù)分析功能,從而更好地對決策或科研工作提供支持。正是為了滿足這種要求,從大量數(shù)據(jù)中提取出隱藏在其中的有用信息,將機器學習應用于大型數(shù)據(jù)庫的數(shù)據(jù)挖掘(Data Mining)技術得到了長足的發(fā)展。

        數(shù)據(jù)挖掘,也可以稱為數(shù)據(jù)庫中的知識發(fā)現(xiàn)(Knowledge Discover Database,KDD),是從大量數(shù)據(jù)中提取出可信、新穎、有效并能被人理解的模式的高級處理過程。數(shù)據(jù)庫中的知識發(fā)現(xiàn)是一個多步驟的處理過程,一般分為:問題定義了解相關領域的有關情況,熟悉背景知識,弄清用戶要求。數(shù)據(jù)提取根據(jù)要求從數(shù)據(jù)庫中提取相關的數(shù)據(jù)。數(shù)據(jù)預處理主要對前一階段產(chǎn)生的數(shù)據(jù)進行再加工,檢查數(shù)據(jù)的完整性及數(shù)據(jù)的一致性,對其中的噪音數(shù)據(jù)進行處理,對丟失的數(shù)據(jù)進行填補。

        數(shù)據(jù)挖掘運用選定的知識發(fā)現(xiàn)算法,從數(shù)據(jù)中提取出用戶所需要的知識,這些知識可以用一種特定的方式表示或使用一些常用的表示方式。知識評估將發(fā)現(xiàn)的知識以用戶能了解的方式呈現(xiàn),根據(jù)需要對知識發(fā)現(xiàn)過程中的某些處理階段進行優(yōu)化,直到滿足要求。由此可見,數(shù)據(jù)挖掘只是數(shù)據(jù)庫中知識發(fā)現(xiàn)的一個步驟,但又是最重要的一步。因此,往往可以不加區(qū)別地使用KDD和數(shù)據(jù)挖掘。一般在研究領域被稱作數(shù)據(jù)庫中知識發(fā)現(xiàn)的,在工程領域則稱之為數(shù)據(jù)挖掘。
 
二、數(shù)據(jù)挖掘能做什么?

        數(shù)據(jù)挖掘所涉及的學科領域和方法很多,以下四種是非常重要的發(fā)現(xiàn)任務。數(shù)據(jù)總結其目的是對數(shù)據(jù)進行濃縮,給出它的緊湊描述。數(shù)據(jù)挖掘主要關心從數(shù)據(jù)泛化的角度來討論數(shù)據(jù)總結。數(shù)據(jù)泛化是一種把數(shù)據(jù)庫中的有關數(shù)據(jù)從低層次抽象到高層次上的過程。

        分類其目的是學會一個分類函數(shù)或分類模型(也稱作分類器),該模型能把數(shù)據(jù)庫的數(shù)據(jù)項映射到給定類別中的某一個。
        聚類是把一組個體按照相似性歸類,即"物以類聚"。它的目的是使屬于同一類別的個體之間的距離盡可能地小,而不同類別的個體間的距離盡可能地大。
        關聯(lián)規(guī)則是形式如下的一種規(guī)則,"在購買面包和黃油的顧客中,有90%的人同時也買了牛奶"(面包+黃油+牛奶)。關聯(lián)規(guī)則發(fā)現(xiàn)的思路還可以用于序列模式發(fā)現(xiàn)。用戶在購買物品時,除了具有上述關聯(lián)規(guī)律,還有時間或序列上的規(guī)律。
 
三、前途光明的數(shù)據(jù)挖掘技術

        隨著KDD在學術界和工業(yè)界的影響越來越大,國際KDD組委會于1995年把專題討論會更名為國際會議,在加拿大蒙特利爾市召開了第一屆KDD國際學術會議,以后每年召開一次。

        近年來,KDD在研究和應用方面發(fā)展迅速,尤其是在商業(yè)和銀行領域的應用比研究的發(fā)展速度還要快。目前,國外數(shù)據(jù)挖掘的發(fā)展趨勢其研究方面主要有:對知識發(fā)現(xiàn)方法的研究進一步發(fā)展,如近年來注重對Bayes(貝葉斯)方法以及Boosting方法的研究和提高;傳統(tǒng)的統(tǒng)計學回歸法在KDD中的應用;KDD與數(shù)據(jù)庫的緊密結合。在應用方面包括:KDD商業(yè)軟件工具不斷產(chǎn)生和完善,注重建立解決問題的整體系統(tǒng),而不是孤立的過程。用戶主要集中在大型銀行、保險公司、電信公司和銷售業(yè)。國外很多計算機公司非常重視數(shù)據(jù)挖掘的開發(fā)應用,IBM和微軟都成立了相應的研究中心進行這方面的工作,此外,一些公司的相關軟件也開始在國內(nèi)銷售,如Platinum、BO以及IBM。國內(nèi)從事數(shù)據(jù)挖掘研究的人員主要在大學,也有部分在研究所或公司。所涉及的研究領域很多,一般集中于學習算法的研究、數(shù)據(jù)挖掘的實際應用以及有關數(shù)據(jù)挖掘理論方面的研究。
        
        目前進行的大多數(shù)研究項目是由政府資助進行的,如國家自然科學基金、863計劃、"九五"計劃等,但還沒有關于國內(nèi)數(shù)據(jù)挖掘產(chǎn)品的報道。一份最近的Gartner報告中列舉了在今后3~5年內(nèi)對工業(yè)將產(chǎn)生重要影響的五項關鍵技術,其中KDD和人工智能排名第一。同時,這份報告將并行計算機體系結構研究和KDD列入今后5年內(nèi)公司應該投資的10個新技術領域??梢钥闯?,數(shù)據(jù)挖掘的研究和應用受到了學術界和實業(yè)界越來越多的重視。進行數(shù)據(jù)挖掘的開發(fā)并不需要太多的積累,國內(nèi)軟件廠家如果進入該領域,將處于和國外公司實力相差不很多的起跑線上,并且,現(xiàn)在關于數(shù)據(jù)挖掘的一些研究成果可以在Internet上免費獲取,這更是一個可以利用的條件。我們希望數(shù)據(jù)挖掘能夠引起國內(nèi)實業(yè)界更多的重視,同時也希望能夠有更多的國內(nèi)軟件廠商進入該領域,一起促進數(shù)據(jù)挖掘技術在中國的應用。
本站僅提供存儲服務,所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權內(nèi)容,請點擊舉報。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
清華178頁深度報告:一文看懂AI數(shù)據(jù)挖掘
2021超星發(fā)現(xiàn)使用小統(tǒng)計
從概念到應用,終于有人把數(shù)據(jù)挖掘講明白了
論知識發(fā)現(xiàn)與數(shù)據(jù)挖掘
寫給新人數(shù)據(jù)挖掘基礎知識介紹
知識挖掘
更多類似文章 >>
生活服務
分享 收藏 導長圖 關注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服