GIS系統(tǒng)數(shù)據(jù)挖掘功能的擴(kuò)展
蔣 旻1 梁 平2 賀貴明3 劉振勝3
1. (武漢科技大學(xué)計(jì)算機(jī)系,武漢 430081)
2. (華中科技大學(xué)計(jì)算機(jī)系,武漢 430074)
3. (武漢大學(xué)軟件工程國家重點(diǎn)實(shí)驗(yàn)室,武漢 430072)
E-mail:leetiti@hotmail.com
摘 要:該文分析了GIS系統(tǒng)中數(shù)據(jù)挖掘的特點(diǎn)與要求,總結(jié)和比較了空間數(shù)據(jù)挖掘技術(shù)的研究和不同開發(fā)方式,提出了一種在GIS系統(tǒng)中擴(kuò)展空間數(shù)據(jù)挖掘功能的方法。
關(guān)鍵詞:數(shù)據(jù)挖掘GIS空間數(shù)據(jù)管理
文章編號1002-8331-(2003)28-0211-03 文獻(xiàn)標(biāo)識碼:A 中圖分類號:TP274
A Method of Extending GIS of Spatial Data Mining
Abstract:This article analyzes the features and demands of data mining in GIS, summarizes the research of spatial data mining technology and the different method of develoing SDM system, and suggests a method of extending GIS of spatial data mining.
Keywords:Data mining; GIS; Spatial data management
在空間數(shù)據(jù)庫中發(fā)現(xiàn)知識,就是提取感興趣的空間模式和特征、空間數(shù)據(jù)與非空間數(shù)據(jù)之間的聯(lián)系以及不是顯式地存放在空間數(shù)據(jù)庫中的其它數(shù)據(jù)特點(diǎn)[5]。近年來地理信息系統(tǒng)的技術(shù)逐漸走向成熟,應(yīng)用領(lǐng)域也在不斷擴(kuò)展,但由于流行的GIS系統(tǒng)中的空間分析在處理海量數(shù)據(jù)的能力有限,并且空間分析的復(fù)雜模型的建立往往需要專家的支持。所以GIS在支持自動空間知識發(fā)現(xiàn)的能力仍很薄弱。
數(shù)據(jù)挖掘是從大量的數(shù)據(jù)中提取出可信的、新穎的、有用的并能被人理解的模式的處理過程[6]。GIS主要依靠用戶生成假說,并以地理空間中可視化的方式表現(xiàn)數(shù)據(jù)的內(nèi)容。而數(shù)據(jù)挖掘是依靠系統(tǒng)生成假說在抽象空間推斷和歸納超出數(shù)據(jù)庫內(nèi)容并將結(jié)果可視化。
該文總結(jié)和比較了國際上空間數(shù)據(jù)挖掘的研究和系統(tǒng)的不同開發(fā)方式,提出了一種在GIS系統(tǒng)中擴(kuò)展空間數(shù)據(jù)挖掘功能方法。空間數(shù)據(jù)庫中數(shù)據(jù)挖掘可分為兩類:對矢量空間結(jié)構(gòu)對象的數(shù)據(jù)挖掘;對柵格空間結(jié)構(gòu)對象的數(shù)據(jù)挖掘。該文的研究對象是前者。
1 GIS系統(tǒng)中數(shù)據(jù)挖掘的特點(diǎn)與要求
GIS中含有大量的空間和非空間數(shù)據(jù),有著比一般關(guān)系數(shù)據(jù)庫和事務(wù)數(shù)據(jù)庫更加豐富和復(fù)雜的語義信息,隱藏著豐富的知識。空間數(shù)據(jù)與普通數(shù)據(jù)的不同特點(diǎn)決定了在空間數(shù)據(jù)庫進(jìn)行數(shù)據(jù)挖掘與在普通事務(wù)數(shù)據(jù)庫中數(shù)據(jù)挖掘方法的不同[5]。
(1)數(shù)據(jù)存儲機(jī)制不同
空間數(shù)據(jù)具有不同于關(guān)系數(shù)據(jù)的特點(diǎn),它帶有空間拓?fù)浣Y(jié)構(gòu)和距離信息,通常用復(fù)雜的多維空間索引結(jié)構(gòu)組織存放(如R樹),并通過空間數(shù)據(jù)存取方法訪問,也常常需要用空間推理、幾何計(jì)算和空間知識的表示技術(shù)等。
(2)空間數(shù)據(jù)的特點(diǎn)
空間數(shù)據(jù)相互依賴性強(qiáng)。而事務(wù)挖掘算法假定數(shù)據(jù)獨(dú)立,所以,數(shù)據(jù)依賴使得事務(wù)數(shù)據(jù)挖掘工具很難發(fā)現(xiàn)對象間的空間聯(lián)系。所以,只有把事務(wù)數(shù)據(jù)挖掘技術(shù)擴(kuò)充到空間數(shù)據(jù)挖掘,才能更好地分析復(fù)雜的空間現(xiàn)象和空間對象。
2 空間數(shù)據(jù)挖掘技術(shù)
空間數(shù)據(jù)挖掘技術(shù)按功能可分為三類:描述、解釋、預(yù)測。描述性的模型將空間現(xiàn)象的分布特征化。如空間聚類。解釋性的模型處理空間關(guān)系,如一個空間對象和影響其空間分布的因素之間的關(guān)系。預(yù)測型的模型用來根據(jù)給定的一些屬性預(yù)測某些屬性。預(yù)測型的模型包括分類、回歸等等[3]。以下介紹幾個典型的空間數(shù)據(jù)挖掘技術(shù)。
2.1 聚類方法
聚類分析方法按一定的距離或相似性測度將數(shù)據(jù)分成一系列相互區(qū)分的組[6]。
而空間數(shù)據(jù)聚類是按照某種距離度量準(zhǔn)則,在某個大型、多維數(shù)據(jù)集中標(biāo)識出聚類或稠密分布的區(qū)域,從而發(fā)現(xiàn)數(shù)據(jù)集的整個空間分布模式。經(jīng)典統(tǒng)計(jì)學(xué)中的聚類分析方法對海量數(shù)據(jù)效率很低。數(shù)據(jù)挖掘中的聚類方法可以大大提高聚類效率。kopersKi等人提出了兩個基于CLARANS聚類算法空間數(shù)據(jù)挖掘算法SD和ND。
2.2 分類方法
空間分類指分析空間對象導(dǎo)出與一定空間特征有關(guān)的分類模式,如地區(qū)、高速公路或河流的鄰域[5]。目前空間分類的研究尚處在起步階段。kopersKi等人提出了一種空間對象分類方法[7],該方法采用ID3算法,并采用了一種機(jī)器學(xué)習(xí)方法用于空間分類中的相關(guān)空間謂詞或函數(shù)抽取。
2.3 關(guān)聯(lián)規(guī)則
kopersKi和Han將大型事務(wù)數(shù)據(jù)庫的關(guān)聯(lián)規(guī)則概念擴(kuò)展到空間數(shù)據(jù)庫,并以此找出空間對象的關(guān)聯(lián)規(guī)則。構(gòu)成空間互聯(lián)規(guī)則的空間謂詞有三種形式:表示拓?fù)潢P(guān)系的謂詞,如相交、覆蓋等;表示空間方位和排列次序謂詞,如東、西、左、右等;表示距離的謂詞,如接近、遠(yuǎn)離等。kopersKi提出的空間關(guān)聯(lián)規(guī)則的方法采用一種逐漸求精的方法計(jì)算空間謂詞,該方法首先用一種快速的算法粗略地對一個較大的數(shù)據(jù)集進(jìn)行一次挖掘,然后在裁剪過的數(shù)據(jù)集上用代價(jià)較高的算法進(jìn)一步改進(jìn)挖掘的質(zhì)量。
3 空間數(shù)據(jù)挖掘系統(tǒng)的開發(fā)
3.1 通用SDM系統(tǒng)軟件
在空間數(shù)據(jù)挖掘系統(tǒng)的開發(fā)方面,國際上最著名及有代表性的通用SDM系統(tǒng)有GeoMiner,Descartes和ArcViewGIS的S_PLUS接口。下面分別介紹:
(1)GeoMiner
GeoMiner是加拿大Simon Fraser大學(xué)開發(fā)的著名的數(shù)據(jù)挖掘軟件DBMiner的空間數(shù)據(jù)挖掘的擴(kuò)展模塊,空間數(shù)據(jù)挖掘原型系統(tǒng)GeoMiner,包含有三大模塊:空間數(shù)據(jù)立方體構(gòu)建模塊、空間聯(lián)機(jī)分析處理(OLAP)模塊和空間數(shù)據(jù)挖掘模塊,能夠進(jìn)行交互式地挖掘并顯示挖掘結(jié)果??臻g數(shù)據(jù)挖掘模塊能挖掘三種類型的規(guī)則:特征規(guī)則、判別規(guī)則和關(guān)聯(lián)規(guī)則。GeoMiner采用的空間數(shù)據(jù)挖掘語言是GMQL。
(2)Descartes
Descartes可支持可視化的分析空間數(shù)據(jù),它與開發(fā)此軟件的公司開發(fā)的數(shù)據(jù)挖掘工具Kepler結(jié)合使用,Kepler完成數(shù)據(jù)挖掘任務(wù)且擁有自己的表現(xiàn)數(shù)據(jù)挖掘結(jié)果的非圖形界面,Kepler和Descarte動態(tài)鏈接,把傳統(tǒng)DM與自動作圖可視化和圖形表現(xiàn)操作結(jié)合起來。實(shí)現(xiàn)了C4.5決策樹算法、聚類、關(guān)聯(lián)規(guī)則的挖掘。
(3)ArcView GIS的S_PLUS接口
ArcView GIS的S_PLUS接口是著名的ESRI公司開發(fā),它提供工具分析空間數(shù)據(jù)中指定類。
以上SDM系統(tǒng)它們的共同優(yōu)點(diǎn)是把傳統(tǒng)DM與地圖可視化結(jié)合起來,提供聚類、分類等多種挖掘模式,但它們在空間數(shù)據(jù)的操作上實(shí)現(xiàn)方式不盡相同,Descartes是專門的空間數(shù)據(jù)可視化工具, 它和DM工具Lepler兩者聯(lián)合在一起才能完成SDM任務(wù)。而GeoMiner是在MapInfo平臺上進(jìn)行二次開發(fā)而成,系統(tǒng)龐大,造成較大的資源浪費(fèi)。S_PLUS的局限在于,它是用一種解釋性語言(Script),功能的實(shí)現(xiàn)比用C和C++直接實(shí)現(xiàn)要慢的多,所以只能使用與非常小的數(shù)據(jù)庫應(yīng)用。以下對現(xiàn)存空間數(shù)據(jù)挖掘系統(tǒng)的結(jié)構(gòu)特點(diǎn)進(jìn)行進(jìn)一步的分析,并提出一種GIS系統(tǒng)擴(kuò)展數(shù)據(jù)挖掘功能的實(shí)現(xiàn)模式。
4 系統(tǒng)擴(kuò)展數(shù)據(jù)挖掘功能的實(shí)現(xiàn)
4.1 實(shí)現(xiàn)模式的比較
空間數(shù)據(jù)挖掘的實(shí)現(xiàn)技術(shù)就是指其組成要素間的集成技術(shù)。由于空間數(shù)據(jù)挖掘由空間數(shù)據(jù)庫系統(tǒng)(主要是指GIS數(shù)據(jù)庫)、數(shù)據(jù)挖掘系統(tǒng)和人機(jī)接口三部分組成,而從當(dāng)前存在的系統(tǒng)狀態(tài)來看,空間數(shù)據(jù)庫部分又是GIS系統(tǒng)的組成部分。所以系統(tǒng)的集成就是GIS系統(tǒng)、數(shù)據(jù)挖掘以及人機(jī)接口系統(tǒng)的集成。其中GIS系統(tǒng)與空間數(shù)據(jù)挖掘庫系統(tǒng)的集成是整個系統(tǒng)集成的核心。關(guān)于數(shù)據(jù)挖掘和GIS的結(jié)合,一般有三種模式:
(1)模式1:集成數(shù)據(jù)挖掘開發(fā)模式。
該模式自主開發(fā)GIS空間數(shù)據(jù)管理功能,裝有各種數(shù)據(jù)挖掘分析模型的部件和GIS軟件包集成為一個統(tǒng)一的支持環(huán)境。
(2)模式2:利用現(xiàn)有的商用GIS系統(tǒng),通過數(shù)據(jù)文件或關(guān)系數(shù)據(jù)管理系統(tǒng)將數(shù)據(jù)挖掘和GIS結(jié)合起來。
可分為緊耦合和松散耦合兩種方式。松散耦合方式是指GIS系統(tǒng)與空間數(shù)據(jù)挖掘系統(tǒng)完全分開,通過文件系統(tǒng)或關(guān)系數(shù)據(jù)管理系統(tǒng)來交換信息。GIS系統(tǒng)完成部分?jǐn)?shù)據(jù)預(yù)處理算法和空間數(shù)據(jù)的管理及挖掘結(jié)果的顯示。緊耦合方式,是指GIS系統(tǒng)與數(shù)據(jù)挖掘系統(tǒng)部分集成。緊耦合的方式有兩種方式:通過GIS應(yīng)用平臺提供的GIS應(yīng)用平臺所帶的腳本語言或OLE(對象連結(jié)或嵌入)來實(shí)現(xiàn)應(yīng)用程序。如Geominer;或通過組件技術(shù)利用GIS的空間數(shù)據(jù)庫管理和空間數(shù)據(jù)顯示功能,以實(shí)現(xiàn)GIS與數(shù)據(jù)挖掘的無縫連接的集成方式,這也是當(dāng)前開發(fā)GIS應(yīng)用系統(tǒng)的主流方法。
(3)模式3:數(shù)據(jù)挖掘/擴(kuò)展的空間數(shù)據(jù)管理功能的通用數(shù)據(jù)庫管理系統(tǒng)R GIS集成的開發(fā)模式。
空間數(shù)據(jù)管理和空間分析功能還是主要由GIS組件或OLE技術(shù)實(shí)現(xiàn),通用數(shù)據(jù)庫只負(fù)責(zé)存儲空間數(shù)據(jù),GIS通過專用接口與通用數(shù)據(jù)庫連接。
4.2 一種新的開發(fā)模式
從用戶的角度來看,模式1是一種完善集成方式,但開發(fā)難度較大,如何折中選擇開發(fā)模式,是成功構(gòu)造基于GIS的數(shù)據(jù)挖掘的關(guān)鍵。為了克服以上幾種模式的缺點(diǎn),該文提出了一種新的開發(fā)模式。即以現(xiàn)有的通用空間數(shù)據(jù)庫(Oracle spatial)為核心,利用其擴(kuò)展的空間數(shù)據(jù)管理和空間分析的能力,另外利用GIS組件提供對挖掘結(jié)果顯示。這種模式實(shí)現(xiàn)了GIS系統(tǒng)與空間數(shù)據(jù)挖掘系統(tǒng)完全集成。
這樣構(gòu)造的數(shù)據(jù)挖掘系統(tǒng)結(jié)構(gòu)如圖1所示。該系統(tǒng)的基本結(jié)構(gòu)與一般數(shù)據(jù)挖掘系統(tǒng)相同,只是在數(shù)據(jù)挖掘和數(shù)據(jù)管理中增加了有關(guān)空間數(shù)據(jù)模型化、空間數(shù)據(jù)管理和空間分析的功能,并建立一個人機(jī)接口處理用戶的指令和顯示挖掘結(jié)果。
這種開發(fā)模式與現(xiàn)存開發(fā)模式的最大區(qū)別是用通用數(shù)據(jù)庫代替專門的GIS商用軟件實(shí)現(xiàn)空間數(shù)據(jù)管理功能。它的優(yōu)點(diǎn)在于以下幾點(diǎn):
從GIS的功能分析可以看到:
GIS作為一個獨(dú)立軟件系統(tǒng)時(shí),需要具有完整的功能結(jié)構(gòu),而在為數(shù)據(jù)挖掘服務(wù)時(shí),其主要目的在于為決策者提供決策對象及顯示作為挖掘結(jié)果的地圖,因此只要按需選取GIS的部分功能,而不必面面俱到。
GIS的一些功能如空間數(shù)據(jù)的管理和空間分析等,在擴(kuò)展了空間數(shù)據(jù)管理功能的通用數(shù)據(jù)庫系統(tǒng)中存在相似模塊,因此可通過數(shù)據(jù)庫管理系統(tǒng)中已有功能得到??臻g數(shù)據(jù)和屬性數(shù)據(jù)的查詢和空間操作可利用數(shù)據(jù)庫管理功能,數(shù)據(jù)挖掘分析模塊則可作為一個或多個模塊,由數(shù)據(jù)挖掘子系統(tǒng)統(tǒng)一管理,將空間數(shù)據(jù)的存儲與管理分析均交給數(shù)據(jù)庫管理系統(tǒng)。這樣不僅可減少系統(tǒng)的功能冗余,提高系統(tǒng)的一致性,還可更好地利用數(shù)據(jù)管理系統(tǒng)的各種優(yōu)化技術(shù)提高系統(tǒng)空間數(shù)據(jù)管理與分析的速度。
目前不同GIS廠商遵循空間數(shù)據(jù)格式標(biāo)準(zhǔn)不同,GIS通用平臺或組件一般只能直接處理該系統(tǒng)的空間數(shù)據(jù)文件。因此異種數(shù)據(jù)庫的集成是一個難題。而擴(kuò)展了空間數(shù)據(jù)管理功能的通用數(shù)據(jù)庫提供了數(shù)據(jù)轉(zhuǎn)換接口,可以將各種不同格式的空間數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一的格式存入擴(kuò)展的對象— —關(guān)系數(shù)據(jù)庫,利用通用數(shù)據(jù)庫擴(kuò)展的空間數(shù)據(jù)管理功能可以很好地解決異種數(shù)據(jù)庫的集成的問題。另外它也克服了GIS系統(tǒng)空間數(shù)據(jù)與屬性數(shù)據(jù)分離的缺點(diǎn)。
從GIS與DM的關(guān)系來看:
GIS系統(tǒng)與數(shù)據(jù)挖掘系統(tǒng)完全分開的系統(tǒng)盡管簡單,但有不少缺點(diǎn)。首先,DB系統(tǒng)在存儲、組織、訪問和處理數(shù)據(jù)立方體方面提供了很大的靈活性和有效性。不使用DB/DW系統(tǒng),DM系統(tǒng)可能要花大量的時(shí)間查找、收集、清理和轉(zhuǎn)換數(shù)據(jù)。在DB和/或DW系統(tǒng),數(shù)據(jù)多半被很好地組織、索引、清理、集成或合并,使得找出任務(wù)相關(guān)的、高質(zhì)量的數(shù)據(jù)成為一件容易的任務(wù)。其次,在DB或DW系統(tǒng)中,有許多被測試的、可伸縮的算法和數(shù)據(jù)結(jié)構(gòu)。使用這種系統(tǒng)開發(fā)有效的、可伸縮的實(shí)現(xiàn)是切實(shí)可行的。此外,大部分?jǐn)?shù)據(jù)已經(jīng)或?qū)⒁娣旁贒B/DW系統(tǒng)中。不與這些系統(tǒng)耦合,DM系統(tǒng)就需要使用其它工具提取數(shù)據(jù),使得很難將這種系統(tǒng)集成到信息處理環(huán)境。
5 實(shí)現(xiàn)示例
根據(jù)以上理論,筆者開發(fā)實(shí)現(xiàn)了一個基于Oracle Spatial的空間數(shù)據(jù)挖掘?qū)嶒?yàn)系統(tǒng)。挖掘目標(biāo)的空間和非空間數(shù)據(jù)及概念層次的存儲和空間數(shù)據(jù)的管理由Oracle 8.1.7 Spatial實(shí)現(xiàn)。數(shù)據(jù)準(zhǔn)備算法和聚類、分類,關(guān)聯(lián)規(guī)則等挖掘算法在服務(wù)器端實(shí)現(xiàn),并提供接口給客戶端,在客戶端用GIS組件MapX4.0實(shí)現(xiàn)挖掘結(jié)果的專題圖顯示與評價(jià),編程工具為VC++6.0。圖2展示的是空間聚類的實(shí)現(xiàn)(測試數(shù)據(jù)為MapInfo地圖集中美國US_CUSG,采用DBSCAN算法)。(收稿日期:2002年5月)
參考文獻(xiàn)
1. Ester M, Kriegel H-P, Sander J et al. A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise[C]. In:Proc Second International Conference on Knowledge Discovery and Data Mining, Porland, Oregon, AAAI Press, 1996
2. Ester M, Kriegel H-P, Snader J. Knowledge Discovery in Spatial Databases[C]. In:Proc 23rd German Conference on Artificial Intelligence, KI‘99, Bonn, Germany, Lecture Notes in Computer Science, 1999
3. Ng R T, Han J. Efficient and effective clustering methods for spatial data mining[C]. In:Proc 23rd German Conference on Artificial Intelligence, KI‘99, Bonn, Germany, Lecture Notes in Computer Science, 1999
4. Krzysztof Koperski, Jiawei Hand. Discovery of Spatial Association Rules in Geographic Information Database[C]. In:Proc Foruth International Symposium on Large Spatial Data bases, 1995:47~66
5. 邸凱昌著. 空間數(shù)據(jù)挖掘與知識發(fā)現(xiàn)
6. Jiawei Han. 數(shù)據(jù)挖掘--概念與技術(shù)
7. Koperski K, Han J W, Stefanovic N. An efficient two-step method for classification of spatial data[C]. In:PoikerTed Pro-ceedings of the 1998 International Symposium on SpatialDataHandling(SDH‘98), Vancouver, BC, 1998-11
作者簡介:蔣旻(-V0’2),女,武漢科技大學(xué)計(jì)算機(jī)系教師,研究方向:數(shù)據(jù)庫、多媒體技術(shù)、GIS應(yīng)用研究。梁平,女,華中科技大學(xué)計(jì)算機(jī)系博士生。