聚類分析通常包括4部分內(nèi)容:數(shù)據(jù)表示、相似度度量、聚類算法設(shè)計、聚類結(jié)果有效性分析。
①數(shù)據(jù)表示:包括數(shù)據(jù)集中的樣本特征表示、樣本隸屬度表示、類表示。
②相似性度量:用于度量樣本間或樣本特征表示與類表示之間的相似性程度或者相異性程度。
③聚類算法:即從復(fù)雜的類表示空間中搜索出最適合數(shù)據(jù)集的聚類結(jié)構(gòu)的過程。
④有效性分析:用于判定聚類結(jié)果的優(yōu)劣。
聚類思想在歷史上出現(xiàn)很早,有關(guān)文獻(xiàn)可以追蹤到公元前幾世紀(jì),比如周易中已經(jīng)指出:“方以類聚,物以群分,吉兇生矣?!钡垲愃惴ǖ臍v史卻短得多,見諸文獻(xiàn)的最早也不過是20世紀(jì)50年代。在大數(shù)據(jù)時代,標(biāo)記樣本相對稀少,聚類算法越來越受重視。受到不斷涌現(xiàn)的各種新應(yīng)用驅(qū)動,新型聚類算法不斷出現(xiàn),如子空間聚類、異質(zhì)聚類等,文獻(xiàn)中已經(jīng)積累了成百上千的聚類算法。更有趣的是,聚類算法不僅在許多領(lǐng)域都有成功的應(yīng)用,而且在不同的領(lǐng)域有不同的名稱,如在信號編碼領(lǐng)域,矢量量化大多時候是指聚類分析;在圖像分析領(lǐng)域,圖像分割很多時與聚類分析同義;在復(fù)雜網(wǎng)絡(luò)分析領(lǐng)域,社區(qū)發(fā)現(xiàn)與聚類分析幾乎是同義語;在搜索引擎領(lǐng)域,協(xié)同過濾是一類特殊的聚類算法;在自然語言處理領(lǐng)域,主題發(fā)現(xiàn)屬于聚類分析的一種特殊應(yīng)用;等等。
不同的聚類算法是否具有統(tǒng)一的理論或者是否可以公理化,答案曾經(jīng)幾經(jīng)波折。在聚類分析20世紀(jì)70年代剛剛成為研究熱點(diǎn)之時,就已經(jīng)有人研究聚類分析公理化。特別是在2002年,Kleinberg證明了任何聚類算法都不滿足Kleinberg提出的聚類三公理,對聚類公理化提出了一個似乎是否定的答案。應(yīng)該說Kleinberg聚類三公理影響極大,極大推動了聚類公理化問題的研究。后續(xù)的聚類公理化研究幾乎都是以Kleinberg聚類三公理為藍(lán)本的。但是,已經(jīng)有文獻(xiàn)表明聚類公理化問題存在肯定答案。
如何將眾多的聚類算法進(jìn)行合理分類,也是一個非常具有挑戰(zhàn)性的問題。比如,根據(jù)類表示的不同表示形式,可將聚類算法分為劃分聚類和層次聚類;根據(jù)劃分矩陣的不同表示,可將聚類算法分為硬聚類和軟聚類;根據(jù)算法的實(shí)時性要求,分為在線(實(shí)時)聚類和離線聚類;根據(jù)聚類數(shù)據(jù)存儲的形式,可將聚類算法分為分布式聚類和集中式聚類;根據(jù)是否可將聚類過程或者結(jié)果可視化,可以將聚類算法分為可視化聚類和非可視化聚類;根據(jù)聚類是否假設(shè)樣本密度,可以分為密度聚類與非密度聚類;根據(jù)聚類是否遵循概念原型理論,可以分為原型聚類與非原型聚類;等等。