科學(xué)數(shù)據(jù)網(wǎng)格軟件平臺建立了科學(xué)數(shù)據(jù)庫社團(tuán)內(nèi)的統(tǒng)一安全體系,實現(xiàn)對大量分布式異構(gòu)數(shù)據(jù)資源的有效共享。
科學(xué)數(shù)據(jù)網(wǎng)格(Scientific Data Grid,SDG)在科學(xué)數(shù)據(jù)庫數(shù)據(jù)資源的基礎(chǔ)上,連接了中國科學(xué)院分布在全國的四十多個研究所,通過先進(jìn)的數(shù)據(jù)網(wǎng)格技術(shù),實現(xiàn)對科學(xué)數(shù)據(jù)庫中大量分布式異構(gòu)數(shù)據(jù)資源的有效共享。中國科學(xué)院科學(xué)數(shù)據(jù)庫(Scientific Database,SDB)始建于1983年,其數(shù)據(jù)資源來自科學(xué)院分布在全國各地的四十多個研究所,內(nèi)容覆蓋地球科學(xué)、生物學(xué)、物理、化學(xué)化工、天文空間、能源環(huán)境、材料學(xué)等多個學(xué)科。截至2005年10月,科學(xué)數(shù)據(jù)庫已包含503個專業(yè)子庫,其中423個在線專業(yè)子庫,總數(shù)據(jù)量達(dá)到16.6TB,其中9.48TB為在線科學(xué)數(shù)據(jù),是國內(nèi)信息量最大、學(xué)科專業(yè)最廣、服務(wù)層次最高、綜合性最強(qiáng)的科技信息服務(wù)系統(tǒng)。
SDG軟件體系結(jié)構(gòu)
科學(xué)數(shù)據(jù)網(wǎng)格軟件平臺的主要目標(biāo)就是建立科學(xué)數(shù)據(jù)庫社團(tuán)內(nèi)的統(tǒng)一安全體系,實現(xiàn)科學(xué)數(shù)據(jù)庫分布式、異構(gòu)資源的統(tǒng)一訪問接口。系統(tǒng)平臺軟件的主要技術(shù)路線是數(shù)據(jù)網(wǎng)格技術(shù)。
SDG軟件由SDG中間件和SDG應(yīng)用軟件與工具組成(如圖1)。SDG軟件平臺包含信息服務(wù)、數(shù)據(jù)訪問服務(wù)、存儲服務(wù)和安全體系四個模塊,并在此基礎(chǔ)上,提供了一些管理和應(yīng)用工具。2005年8月SDG2.1軟件包發(fā)布,下載網(wǎng)址為 http://www.sdg.ac.cn/product/pro-3.htm 。2005年11月SDG2.1光盤正式發(fā)布。
SDG中間件
1. 數(shù)據(jù)訪問服務(wù)
科學(xué)數(shù)據(jù)網(wǎng)格數(shù)據(jù)訪問服務(wù)(Data Access Service,DAS)由準(zhǔn)確、高效的數(shù)據(jù)訪問服務(wù)端、靈活便捷的數(shù)據(jù)庫映射工具M(jìn)appingBuilder以及可被自動生成的Web檢索前端構(gòu)成。對外提供統(tǒng)一的數(shù)據(jù)訪問接口,屏蔽分布式環(huán)境中數(shù)據(jù)資源的多樣性和異構(gòu)性,消除數(shù)據(jù)孤島和信息孤島,實現(xiàn)科學(xué)數(shù)據(jù)庫數(shù)據(jù)資源的集成與共享,并已在科學(xué)數(shù)據(jù)庫建庫單位中進(jìn)行了廣泛的推廣部署。DAS軟件結(jié)構(gòu)如圖2所示。
DAS 1.0版本實現(xiàn)的主要功能包括: 統(tǒng)一的訪問接口、高度透明的訪問、豐富的元數(shù)據(jù)、規(guī)范的數(shù)據(jù)抽象、安全可控的數(shù)據(jù)訪問以及方便快捷的Web發(fā)布; 它具有靈活的配置與可延展性,性能卓越、可靠性高。
2. 信息服務(wù)
信息服務(wù)(Information Metadata Service, IMS)在科學(xué)數(shù)據(jù)庫元數(shù)據(jù)建設(shè)的基礎(chǔ)上,為科學(xué)數(shù)據(jù)網(wǎng)格以及先進(jìn)應(yīng)用系統(tǒng)提供信息服務(wù)。2004年以來,中科院網(wǎng)絡(luò)信息中心發(fā)布了IMS V1.0和IMS V2.0兩個版本。IMS V1.0在MDS2的基礎(chǔ)上增加了數(shù)據(jù)存儲功能。IMS V2.0則在OpenLDAP的基礎(chǔ)上開發(fā)完成。
IMS是后臺存儲元數(shù)據(jù)的系統(tǒng),現(xiàn)階段主要采用LDAP。IMS提供資源信息的注冊、資源信息的存儲與維護(hù)、資源信息發(fā)現(xiàn)以及數(shù)據(jù)資源和服務(wù)的詳細(xì)信息。IMS從功能上可以劃分為兩大模塊: 信息分發(fā)(Information Dissemination)和信息查詢(Information Search)。信息分發(fā)提供資源信息的生成、注冊和維護(hù)機(jī)制; 信息查詢提供資源信息查找機(jī)制。IMS軟件結(jié)構(gòu)如圖3所示。
3. 安全體系
科學(xué)數(shù)據(jù)網(wǎng)格CA(Certificate Authority)是科學(xué)數(shù)據(jù)中心開展數(shù)據(jù)服務(wù)活動的重要基礎(chǔ)設(shè)施,提供了科學(xué)數(shù)據(jù)網(wǎng)格平臺的數(shù)字證書服務(wù)。用戶通過使用科學(xué)數(shù)據(jù)網(wǎng)格CA簽發(fā)的數(shù)字證書能夠安全地訪問科學(xué)數(shù)據(jù)網(wǎng)格資源,同時建庫單位也能利用數(shù)字證書安全地對外提供數(shù)據(jù)服務(wù)。
科學(xué)數(shù)據(jù)網(wǎng)格CA系統(tǒng)對外提供如下功能:
● 制定和審批證書策略和認(rèn)證實施規(guī)范總體政策;
● 數(shù)字證書申請(IE瀏覽器、Netscape瀏覽器、服務(wù)器證書申請);
● 實現(xiàn)證書的簽發(fā)、撤銷、凍結(jié)、解凍、查詢等證書管理功能;
● 基本的用戶信息管理;
● 維護(hù)證書列表信息等。
4.存儲服務(wù)
科學(xué)數(shù)據(jù)庫系統(tǒng)平臺的存儲系統(tǒng)包括20TB的磁盤陣列和50TB的磁帶庫,配備有超級數(shù)據(jù)服務(wù)器及其他軟硬件資源。為了使各建庫單位更快更有效地使用數(shù)據(jù)中心的存儲資源,數(shù)據(jù)中心推出了存儲服務(wù)工具集SSTools。通過使用存儲服務(wù)工具集,建庫單位可以在安全認(rèn)證的前提下,進(jìn)行客戶端和服務(wù)器之間的可靠數(shù)據(jù)傳輸。另外,SSTools還支持磁盤配額管理,用戶可以直接通過該工具實現(xiàn)對數(shù)據(jù)中心海量存儲空間的磁盤配額申請和磁盤配額查詢。
存儲服務(wù)客戶端工具SSTools1.0是使用科學(xué)數(shù)據(jù)庫中心各類資源的重要工具,其主界面提供如下功能:
● 認(rèn)證功能;
● FTP數(shù)據(jù)傳輸和認(rèn)證的數(shù)據(jù)傳輸功能;
● 磁盤配額申請和查詢功能。
5. 科學(xué)數(shù)據(jù)網(wǎng)格門戶
科學(xué)數(shù)據(jù)網(wǎng)格門戶是基于開源項目Jetspeed、采用Portlet技術(shù)開發(fā)的門戶系統(tǒng)。構(gòu)建了一個問題求解環(huán)境,允許科學(xué)家通過Web瀏覽器和其他的桌面工具編程、訪問和執(zhí)行分布的網(wǎng)格應(yīng)用??茖W(xué)數(shù)據(jù)網(wǎng)格門戶實現(xiàn)了用戶的單點訪問,提供給用戶一種靈活的個性化定制的管理方式。用戶登錄后可以根據(jù)自己的興趣和需要,增加、刪除頁面、改變頁面在導(dǎo)航中的位置以及對現(xiàn)有的頁面中的內(nèi)容進(jìn)行調(diào)整等。
SDG工具集
1 數(shù)據(jù)量統(tǒng)計工具
數(shù)據(jù)量統(tǒng)計和分析服務(wù)工具(Statistics and Analysis Tool, SAT)為科學(xué)數(shù)據(jù)庫建庫單位和數(shù)據(jù)中心提供數(shù)據(jù)量統(tǒng)計和分析服務(wù)功能。SAT分別安裝部署在建庫單位和數(shù)據(jù)中心。建庫單位的SAT服務(wù)實現(xiàn)數(shù)據(jù)描述服務(wù)接口,可獲取數(shù)據(jù)資源的數(shù)據(jù)量信息。數(shù)據(jù)中心的SAT服務(wù),通過調(diào)用建庫單位的SAT服務(wù)得到建庫單位的數(shù)據(jù)資源的數(shù)據(jù)量,然后對這些數(shù)據(jù)進(jìn)行更多的統(tǒng)計和分析處理。SAT軟件結(jié)構(gòu)如圖4所示。
2 本地訪問控制工具
本地訪問控制策略系統(tǒng)(Local Control Packet,LCP)為科學(xué)數(shù)據(jù)網(wǎng)格資源提供開發(fā)和部署的工具包。此開發(fā)包完成基于JDBC訪問數(shù)據(jù)庫的安全控制,能夠支持多種數(shù)據(jù)庫的訪問,提供一個SQL語言中Select子集的本地訪問控制。通過JSP頁面提供對角色、庫、數(shù)據(jù)表、字段和過濾條件的維護(hù)。此外,LCP方便用戶維護(hù)訪問控制策略,能實現(xiàn)多種數(shù)據(jù)庫和文件資源的本地授權(quán)。
3 圖像處理工具
圖像處理工具包(簡稱IPT),為用戶提供了強(qiáng)大的圖像處理功能。同時IPT服務(wù)以Java編程作為接口,目前提供9個API函數(shù),支持包括bmp、gif、jpeg、png等80多種圖像格式。IPT開發(fā)了單機(jī)版和網(wǎng)格服務(wù)版,主要提供如下功能:
● 圖像尺寸調(diào)整、色彩量化、圖像格式轉(zhuǎn)換;
● 圖像處理(標(biāo)注、縮放、裁剪、量化、柔化、銳化、高斯濾波、中值濾波);
● 批量處理一組圖像文件。
4 通用元數(shù)據(jù)管理工具
通用數(shù)據(jù)管理工具是基于B/S架構(gòu)、采用JAVA語言開發(fā)的應(yīng)用軟件系統(tǒng)。它可以依據(jù)按照元數(shù)據(jù)標(biāo)準(zhǔn)書寫的XML Schema,動態(tài)地生成可以定制的個性化管理頁面和后臺存儲結(jié)構(gòu),實現(xiàn)對元數(shù)據(jù)的增加、刪除、修改、查詢等數(shù)據(jù)管理的基本操作。提供上報和下載以及模板管理等新功能,同時保留了與后繼版本互通信息的可能。
SDG軟件的發(fā)布與推廣
科學(xué)數(shù)據(jù)網(wǎng)格軟件采用面向服務(wù)的架構(gòu)(SOA),通過元數(shù)據(jù)的規(guī)范化與基于元數(shù)據(jù)的資源發(fā)現(xiàn),使用戶能夠以兩階段查詢方式實現(xiàn)對分布式異構(gòu)數(shù)據(jù)資源的統(tǒng)一訪問。截至2005年8月,中科院網(wǎng)絡(luò)信息中心先后發(fā)布了科學(xué)數(shù)據(jù)網(wǎng)格軟件包SDG1.0、SDG2.0、SDG2.1三個版本,并在中國科學(xué)院科學(xué)數(shù)據(jù)庫45個建庫單位中推廣部署,軟件使用情況良好。2005年11月24日發(fā)布了科學(xué)數(shù)據(jù)網(wǎng)格軟件(SDG2.1)光盤。
SDG軟件已經(jīng)完成了從單一的應(yīng)用到完整的數(shù)據(jù)網(wǎng)格平臺的轉(zhuǎn)變,在此基礎(chǔ)上提供了一系列基于統(tǒng)一系統(tǒng)平臺的、完全基于開放標(biāo)準(zhǔn)的應(yīng)用服務(wù)和工具,實現(xiàn)了科學(xué)數(shù)據(jù)的真正共享和科學(xué)家之間的協(xié)同工作。今后的研發(fā)重點是不斷完善軟件,與用戶密切聯(lián)系,提高軟件的實用性; 同時整合多方面的成果,提高軟件的集成性和完整性。
作者簡介
南凱
博士,副研究員,碩士生導(dǎo)師,現(xiàn)任中國科學(xué)院計算機(jī)網(wǎng)絡(luò)信息中心網(wǎng)絡(luò)技術(shù)與應(yīng)用研究室副主任。
主要從事計算機(jī)網(wǎng)絡(luò)、分布式系統(tǒng)、數(shù)據(jù)庫應(yīng)用等方面的研究。目前擔(dān)任中科院知識創(chuàng)新工程信息化建設(shè)專項子項目“科學(xué)數(shù)據(jù)庫系統(tǒng)平臺建設(shè)”(2001~2005)負(fù)責(zé)人。
自上世紀(jì)末以來,世界科研大國相繼在e-Science(科研信息化)方面投入大量科研經(jīng)費,支持了一批具有重要意義的項目,對世界各國的科學(xué)研究活動產(chǎn)生了重大影響。目前,美國、英國、中國和歐洲各國陸續(xù)建立了具有一定規(guī)模的e-Science基礎(chǔ)設(shè)置環(huán)境。一方面,e-Science是基于高速網(wǎng)絡(luò)、超級計算機(jī)、海量存儲技術(shù)、網(wǎng)格技術(shù)和大規(guī)模科研信息合作的數(shù)字科研環(huán)境; 另一方面,信息通信技術(shù)的發(fā)展使人、工具和信息連接在一起,消除了地域、時間、團(tuán)隊和學(xué)科領(lǐng)域的限制。這極大改變和拓展了傳統(tǒng)研究方法,促進(jìn)了廣泛的合作與協(xié)同研究。
第20屆CODATA國際學(xué)術(shù)大會設(shè)有e-Science重點研討會,邀請來自中國、澳大利亞、荷蘭、德國的科學(xué)家,通過豐富多彩的主題報告介紹世界各國在e-Science方面的最新進(jìn)展、基于e-Science的重大科研活動和應(yīng)用、以及相關(guān)新技術(shù)和前言問題。
(計算機(jī)世界報 2006年09月11日 第35期 B18、B19)