說明:這些問題以及他們的解答來自數(shù)據挖掘者的博客http://blogger.org.cn/blog/blog.asp?name=idmer,由DMman整理,日期截止到2007-6-20。挑選了其中比較有實際應用意義的若干。涉及到數(shù)據挖掘的前景、學習數(shù)據挖掘需要學什么、如何學習;數(shù)據挖掘的算法、應用等技術問題....希望大家能有所得。
身不由己(游客)發(fā)表留言于2007-2-1 10:51:55 我想開始學數(shù)據挖掘 1.請問下,什么挖掘工具適合我這樣的初學者,最好是很容易操作,還要是中文的,我英文有點差...希望您能推薦下. 2.能不能發(fā)給我這個您推薦給我的數(shù)據挖掘的工具.因為我下的數(shù)據挖掘工具都不能用. 謝謝您了 以下為blog主人的回復: 首先,我建議你別著急選工具,先看看數(shù)據挖掘的綜述資料,選擇一個合適的課題,再往下深入了解和研究。 對于畢業(yè)設計來說,也許你去找些公開的數(shù)據挖掘源程序,并使用這些源碼進行改進或者應用到你要研究的課題上,可能比選擇商用的數(shù)據挖掘軟件更合適一些。因為這樣你會了解算法的內幕,而不是簡單地應用。 如果你需要下載一些數(shù)據挖掘軟件,我建議你到Kdnuggets網站或數(shù)據挖掘研究院網站上找找看。這些網址在我的Blog上有鏈接。 關于數(shù)據挖掘軟件的推薦,商用的我推薦SAS Enterprise Miner、SPSS Clementine、KXEN;研究方面的我推薦Weka。 我現(xiàn)在在做一些文本校對相關的一些事情,但是手頭缺乏一些語料庫的資料(主要是語料庫本身以及相關調用代碼),所以我想向您咨詢一下您手頭沒有關于語料庫的資料或者是相關網址等,麻煩您了,謝謝 以下為blog主人的回復: 可以到北京大學計算語言研究所的網站上看看: uveil(游客)發(fā)表留言于2006-5-16 10:08:04 有個問題想請教一下,你既然是研究數(shù)據挖掘的,肯定對其有關會議比較了解,想問ICMLC這個國際會議怎么樣?它可是被EI檢索的。 以下為blog主人的回復: 請參考:Computer Science Conference Rankings(http://www.w3china.org/blog/more.asp?name=idmer&id=6910) debby(游客)發(fā)表留言于2006-4-26 11:49:42 我的畢業(yè)設計題目:文本挖掘。首先要在現(xiàn)成的語料庫中提取特征,想用詞頻統(tǒng)計的算法,但是以前沒有接觸過這方面的內容,不知道怎么下手,希望能給與幫助。謝謝! 以下為blog主人的回復: 請參考北京大學自然語言學研究所主頁(http://www.icl.pku.edu.cn/default_cn.asp)。 微軟亞洲研究院-自然語言計算組(http://research.microsoft.com/asia/group/nlc/) 計算語言學和自然語言信息處理研究和應用綜述(http://ling.cass.cn/yingyong/courses/nlpbase.htm) dmdou(游客)發(fā)表留言于2006-4-14 23:20:46 請教一下,我最近開始學習數(shù)據挖掘技術,您能介紹一下這方面的前景嗎?庸俗一點就是找工作是否很有需求?嘿嘿 多謝 以下為blog主人的回復: 現(xiàn)在和以后對數(shù)據挖掘人才的需求還是有一些的,不過由于數(shù)據挖掘是對數(shù)據的深層分析,所以一般除了要求深入了解數(shù)據挖掘技術之外,還要求對數(shù)據庫(數(shù)據倉庫)、行業(yè)業(yè)務、分析等方面的能力和經驗。因此建議你熟悉數(shù)據庫技術,同時有機會的話多參與一些實際項目,這樣可以擴大你的擇業(yè)范圍。 jeff(游客)發(fā)表留言于2006-4-4 10:18:15 您好,我是的畢業(yè)設計題目定了,基于分區(qū)的算法的孤立點分析,但是感覺到沒有頭緒,另外也沒有找到合適的數(shù)據源.現(xiàn)在我應該應該看那些書呢?從哪個地方下手呢? 以下為blog主人的回復: 關于孤立點分析,我了解得很少。唯一做過的相關工作就是將其應用到數(shù)據質量檢查中,根據歷史趨勢發(fā)現(xiàn)新的數(shù)據中是否存在異常。除此之外,孤立點分析應該在網絡流量異常檢測中應用得比較多。至于需要看哪些書,象《數(shù)據挖掘:概念與技術》等書中只有簡單介紹,深入的內容建議你嘗試一下Google的學術搜索http://scholar.google.com/schhp?hl=zh-CN和www.researchindex.org等等。 歡迎對這方面熟悉的同行給出寶貴意見,謝謝。 hello(游客)發(fā)表留言于2006-3-21 11:15:00 我的方向是遺傳算法進行關聯(lián)規(guī)則挖掘,但是看的不多,還有50天就NDBC2006就截稿了,您能否給我一些建議,比如看什么書,如何準備, 謝謝 以下為blog主人的回復: 遺傳算法我了解得很少,所以無法告訴你去看些什么書,只能給些投稿方面的建議。NDBC(全國數(shù)據庫年會)接收的稿件主要分為兩大類:研究報告類和技術報告類,前者側重于科學研究(新的模型、新的思路、算法改進等),后者側重于技術實現(xiàn)(結合具體的應用,一般需要有系統(tǒng)原型、應用效果等)。一般來說,前者比后者的學術價值更高些,稿件的質量也要求較高,所以需要比較長時間的研究和積累才可能做出來。 cathy(游客)發(fā)表留言于2006-3-2 17:12:42 你好,我是一名在校碩士生,方向是數(shù)據挖掘,我就要開始寫論文拉,我想請問大俠數(shù)據挖掘能否應用在股票市場上?肯請給我些建議!謝拉 以下為blog主人的回復: 我沒有研究過相關內容,你可以在Google中檢索“數(shù)據挖掘股票”,或者在Google學術搜索(http://scholar.google.com/schhp?hl=zh-CN) 中檢索亦可。應該有些方向可以研究,不過我對用預測算法來預測股價并不看好,因為一方面無法獲得莊家的內幕消息(而他們對股價變動常常有很大的影響),另一方面一些重要信息難以量化,比如政策面的因素。 青椒(游客)發(fā)表留言于2005-10-31 15:18:51 Sunstone:如果你希望了解數(shù)據挖掘在行業(yè)應用上的成功案例,可以查看SAS、SPSS等公司網站上的Success stories,例如http://www.sas.com/success/index.html。 關于數(shù)據挖掘領域的研究 原信:(2006-6-7) 師兄: ohmyfuture, |