由于數(shù)據(jù)是從多種來源收集而來,因此“數(shù)據(jù)聚合”已經(jīng)成為數(shù)據(jù)預(yù)處理流程中的一個(gè)重要組成部分。數(shù)據(jù)聚合的核心任務(wù)是要將互相關(guān)聯(lián)的分布式異構(gòu)數(shù)據(jù)源集成到一起,使用戶能夠以透明的方式訪問這些數(shù)據(jù)源。
聯(lián)邦數(shù)據(jù)庫(kù)是早期人們采用的一種模式集成方法。其基本思想是,在構(gòu)建集成系統(tǒng)時(shí)將各數(shù)據(jù)源的數(shù)據(jù)視圖集成為全局模式,使用戶能夠按照全局模式透明地訪問各數(shù)據(jù)源的數(shù)據(jù)。在聯(lián)邦數(shù)據(jù)庫(kù)中,數(shù)據(jù)源之間共享自己的一部分?jǐn)?shù)據(jù)模式,形成一個(gè)聯(lián)邦模式。
中間件集成方法是目前比較流行的數(shù)據(jù)集成方法,中間件模式通過統(tǒng)一的全局?jǐn)?shù)據(jù)模型來訪問異構(gòu)的數(shù)據(jù)庫(kù)、遺留系統(tǒng)、Web資源等。中間件位于異構(gòu)數(shù)據(jù)源系統(tǒng)(數(shù)據(jù)層)和應(yīng)用程序(應(yīng)用層)之間,向下協(xié)調(diào)各數(shù)據(jù)源系統(tǒng),向上為訪問集成數(shù)據(jù)的應(yīng)用提供統(tǒng)一數(shù)據(jù)模式和數(shù)據(jù)訪問的通用接口。各數(shù)據(jù)源的應(yīng)用仍然完成其任務(wù),中間件系統(tǒng)則主要集中為異構(gòu)數(shù)據(jù)源提供一個(gè)高層次檢索服務(wù)。該方法同樣使用全局?jǐn)?shù)據(jù)模式,通過在中間層提供一個(gè)統(tǒng)一的數(shù)據(jù)邏輯視圖來隱藏底層的數(shù)據(jù)細(xì)節(jié),使得用戶可以把集成數(shù)據(jù)源視為一個(gè)統(tǒng)一的整體。這種模型下的關(guān)鍵問題是如何構(gòu)造這個(gè)邏輯視圖并使得不同數(shù)據(jù)源之間能映射到這個(gè)中間層。
數(shù)據(jù)倉(cāng)庫(kù)方法是一種典型的數(shù)據(jù)復(fù)制方法。該方法將各個(gè)數(shù)據(jù)源的數(shù)據(jù)復(fù)制到同一處,即數(shù)據(jù)倉(cāng)庫(kù)。用戶則像訪問普通數(shù)據(jù)庫(kù)一樣直接訪問數(shù)據(jù)倉(cāng)庫(kù)。
聯(lián)系客服