免费视频淫片aa毛片_日韩高清在线亚洲专区vr_日韩大片免费观看视频播放_亚洲欧美国产精品完整版

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
關(guān)于共現(xiàn)分析實(shí)際操作的通信
對共現(xiàn)分析感興趣的人越來越多,這是我在94年開始做這方面研究的時(shí)候沒有預(yù)料到的,這確實(shí)是值得慶幸的一件事情,但是隨之而來的會(huì)有很多實(shí)際問題,尤其是對于初學(xué)者,這個(gè)問題不妥善解決,恐怕會(huì)影響到該方法的普及,所以,我覺得有義務(wù)給大家多做些解釋說明,讓這個(gè)方法能夠得以平穩(wěn)健康的發(fā)展。
以下是我與一位湖南農(nóng)業(yè)大學(xué)的研究生之間就共現(xiàn)聚類分析的實(shí)際操作問題的往來信件,考慮到可能有很多的同學(xué)都會(huì)遇到這樣的問題,在征得該同學(xué)同意的前提下,刪去其中感謝的話語(不要因此認(rèn)為該同學(xué)不禮貌喲
),保留實(shí)際的問題信息,發(fā)表在這里。
1. 2010年4月6日
崔教授,您好!
目前學(xué)生遇到了一些問題,不知道能否得到您的指點(diǎn):
1)就是利用Bibexcel 技術(shù)進(jìn)行共詞分析,那個(gè)圖譜畫不出,只能得到共現(xiàn)矩陣;
2)我研讀了您的一些論文,想利用SPSS做聚類分析的,可是我現(xiàn)在只有關(guān)鍵詞的共現(xiàn)頻率矩陣;還需要進(jìn)行什么處理才能做聚類分析呢?
3)“戰(zhàn)略坐標(biāo)”中的向心度和密度具體怎么算呢?
這是他的數(shù)據(jù)(已經(jīng)整理過行和列的):
1.我的回信:
XXX同學(xué),您好!
1)對于你附件中的矩陣,是通過bibexcel得到的嗎?是共現(xiàn)矩陣嗎?對角線上的數(shù)字代表什么呢?為什么對角線上的數(shù)字有的是0,有的不是0呢?
2)如果用SPSS分析,輸入的矩陣不應(yīng)該是相關(guān)矩陣,而應(yīng)該是詞-篇矩陣,就是比共現(xiàn)矩陣更為原始的,示例如下:
關(guān)鍵詞 論文1  論文2  論文3 論文4 論文5  論文6
Biodiversity  1 0 0 0 0
Biogeography  1 0 1 0 0
Climate  0 0 0 0 1
Climate change  1 1 0 0 1
Competition  0 1 0 0 0
Conservation 0 0 1 1 0
Density dependence  1 0 1 1 1
上述矩陣的1代表該詞在該論文中出現(xiàn),0代表沒有出現(xiàn),你目前得到的矩陣應(yīng)該是通過這個(gè)矩陣進(jìn)一步計(jì)算后得到的。這樣的矩陣在SAS中可以輸入處理,其他一些小型的專門面向聚類的軟件也可以處理,如gcluto,但是首先要把對角線上的數(shù)據(jù)是什么意思能明白,否則沒有可信性。
3)戰(zhàn)略坐標(biāo)的算法我們就是用excel,通過標(biāo)記同一類的對象,反復(fù)計(jì)算每一個(gè)類別的類內(nèi)各個(gè)對象(詞)之間的距離的平均值(某一類的密度),然后計(jì)算每個(gè)類內(nèi)的各個(gè)對象(詞)與本類之外所有詞的距離的平均值的平均值(某一類的向心度),看著復(fù)雜,實(shí)際在excel操作上只是拖動(dòng)鼠標(biāo)就可以了。坐標(biāo)的原點(diǎn)我們用的是所有各類的密度和向心度的平均值。
不知道我說清楚沒有,看來需要開設(shè)個(gè)實(shí)用培訓(xùn)班了。呵呵,我申請了一個(gè)研究生暑期訪學(xué)項(xiàng)目,不知道能否批準(zhǔn)。
2. 2010年4月7日來信:
尊敬的崔教授:
這兩天我一直在琢磨那個(gè)矩陣以及如何更進(jìn)一步的分析,我給您發(fā)的那個(gè)矩陣就是由Bibexcel 軟件得出的,您說的對角線上的數(shù)字有的是0 ,我的理解是那兩個(gè)詞之間沒有共現(xiàn)關(guān)系,而其他數(shù)字表明那兩個(gè)詞一起共現(xiàn)的次數(shù),不知道我這樣理解有沒有錯(cuò)誤?
關(guān)于戰(zhàn)略坐標(biāo)法,我似乎有點(diǎn)懂了,可能等我把聚類樹做出來,會(huì)更容易理解些,謝謝您!
2.2010年4月7日我的回信
對角線上的數(shù)字,對應(yīng)的行和列都是一個(gè)詞, 就是說, 對角線上的數(shù)字應(yīng)該是同一個(gè)詞自己和自己的關(guān)系,應(yīng)該是多少?
3.2010年4月7日 來信
崔教授:
列應(yīng)該是需要向下移一格的,也就是不考慮同一個(gè)詞自己和自己的關(guān)系。我給您傳一篇論文吧【注:為《國際力學(xué)論文關(guān)鍵詞的共詞分析》】,我的想法就是該篇論文的表1 ,表2考慮的。
崔教授,您好:
首先向您說聲抱歉,我仔細(xì)檢查了下,發(fā)現(xiàn)確實(shí)如您所說的那樣,我又用軟件重新做了一次,發(fā)現(xiàn)漏復(fù)制了一行,現(xiàn)把正確的矩陣給您發(fā)過去。
3.我的回信
這個(gè)問題涉及到共現(xiàn)分析的一些基礎(chǔ)知識(shí),而且一直在爭議,參看邱均平老師的論文【關(guān)于共被引分析方法的再認(rèn)識(shí)和再思考】,對于你的數(shù)據(jù),我的做法是,把你給我的矩陣填滿,對角線輸入的是該單詞與其他單詞共現(xiàn)的總次數(shù),然后輸入到SPSS, 注意采用的是counts-chi square,得到結(jié)果【附件】,你看看是否是你想要的。
下面是填充過的表格,對角線是共現(xiàn)總次數(shù)。
4.2010年4月12日 來信
崔教授,您好!
仔細(xì)看了您給的聚類圖,感覺很好,只是如您所說的,學(xué)生還有幾個(gè)疑問:
1)您能指點(diǎn)一下為什么矩陣中對角線您是取的總和值,這樣做是不是有相關(guān)的研究?邱均平教授研究論文中是最大值加1,我之前一直愚鈍的覺得是個(gè)0,現(xiàn)在仔細(xì)想想覺得自己對這方面的知識(shí)太欠缺了。
2)如您給出的矩陣,如果我想繼續(xù)做一個(gè)戰(zhàn)略坐標(biāo),請問還應(yīng)該如何操作?是不是要求他們的一些系數(shù)矩陣?
3)在您的回信里,您特別強(qiáng)調(diào)了是用counts-chi square 方法聚類分析,請問用這個(gè)方法有什么特別的地方嗎?
4.2010年4月13日 我的回信
XXX同學(xué),您好!
不用客氣,通過你的問題我也學(xué)習(xí)了很多,對共現(xiàn)聚類分析有更深入的認(rèn)識(shí)。
(1)由于是共現(xiàn)矩陣,里面的數(shù)字是兩個(gè)詞的共現(xiàn)次數(shù),所以數(shù)目越大表示兩個(gè)詞關(guān)系越密切,所以,從這個(gè)角度說共現(xiàn)矩陣是個(gè)相似矩陣,而不是距離矩陣,對角線上的數(shù)據(jù)代表著和一個(gè)詞和自己的相關(guān)程度,對于相似矩陣,應(yīng)該是越大越好,轉(zhuǎn)換為相似系數(shù)的矩陣后應(yīng)該是1;如果是距離矩陣,則應(yīng)該是越小越好,應(yīng)該是0。至于為什么取總和,是我們多年來的經(jīng)驗(yàn),和邱均平老師所提出的不同,如果取了總和,再轉(zhuǎn)換為相似系數(shù)矩陣的時(shí)候就可以保證對角線上的數(shù)據(jù)為1,效果會(huì)更好。從經(jīng)驗(yàn)和原理上是這樣的,但是沒有經(jīng)過嚴(yán)格的數(shù)學(xué)論證,由于沒有數(shù)學(xué)上的能力,也不想加入這個(gè)討論中。
(2)戰(zhàn)略坐標(biāo)的算法,再形成了矩陣并有了聚類結(jié)果之后, 可以在excel上操作,要點(diǎn)是把同一類的詞標(biāo)記出來,然后排序,把同一類的幾行放在一起,先計(jì)算類內(nèi)各詞之間的共現(xiàn)次數(shù)平均值,這就是該類的密度。然后計(jì)算向心度,啰嗦一點(diǎn)兒說,就是把同類的列刪除,然后計(jì)算同一類各行的總和,就是每一詞與類外詞的距離,然后求平均值,應(yīng)該是該類的向心度了。你自己實(shí)踐幾次就明白了,我說不明白。
(3)其實(shí),在我心里,對于矩陣中的數(shù)據(jù),既可以是計(jì)數(shù)(counts)數(shù)據(jù),也可以是計(jì)量數(shù)據(jù)(在SPSS中interval),之所以強(qiáng)調(diào),有點(diǎn)兒擔(dān)心你把計(jì)數(shù)資料用其他的系數(shù),其實(shí)擔(dān)心多余了,打開SPSS看到這些是通過菜單和選項(xiàng)對應(yīng)起來了。所以,更正一下是,你可以用counts計(jì)算,卡方和另一個(gè)都可以試著來,哪個(gè)好用哪個(gè)。也可以用interval計(jì)算,但是開平方的歐氏距離效果不好。另外,聚類中各類別間相似度的計(jì)算方法(最大距離、最小距離、組內(nèi)平均距離和組間平均距離等)都可以嘗試,總結(jié)個(gè)人經(jīng)驗(yàn),我認(rèn)為最大距離效果最好。作為一種非監(jiān)督的學(xué)習(xí)方法,聚類分析更多的是依賴于個(gè)人經(jīng)驗(yàn)。
轉(zhuǎn)載本文請聯(lián)系原作者獲取授權(quán),同時(shí)請注明本文來自崔雷科學(xué)網(wǎng)博客。
鏈接地址:http://blog.sciencenet.cn/blog-82196-311484.html
上一篇:子見南子
下一篇:如何計(jì)算戰(zhàn)略坐標(biāo)
本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊舉報(bào)。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
基于多元統(tǒng)計(jì)學(xué)的我國各省市經(jīng)濟(jì)發(fā)展?fàn)顩r分析
聚類分析
基于SPSS和ArcGIS的地區(qū)社會(huì)弱勢性空間格局分析
解鎖卡片分類全過程 – 騰訊CDC
基于知識(shí)圖譜的微課研究熱點(diǎn)與趨勢分析
機(jī)器學(xué)習(xí):Python實(shí)現(xiàn)聚類算法之AP算法
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服