中國傳媒大學(xué) 朱立谷
隨著信息技術(shù)的不斷發(fā)展,文本文件、頁面、電子郵件、音樂、電影等眾多不同類型信息的存儲(chǔ)需求呈現(xiàn)出爆炸性增長。存儲(chǔ)系統(tǒng)在數(shù)據(jù)存儲(chǔ)的可靠性和性能方面是比較有效的,但是隨著存儲(chǔ)系統(tǒng)的容量不斷增大,存儲(chǔ)信息的數(shù)量和類型的不斷增加,這些信息的檢索和管理會(huì)變得越來越困難,這與互聯(lián)網(wǎng)環(huán)境形成了鮮明的對(duì)比:隨著搜索引擎發(fā)展,在互聯(lián)網(wǎng)的環(huán)境下尋找信息很方便,用戶如何在存儲(chǔ)系統(tǒng)中找到想要的信息比在互聯(lián)網(wǎng)上查找信息更加困難。
幾乎所有的文件存儲(chǔ)系統(tǒng)是基于文件系統(tǒng)的,文件系統(tǒng)與操作系統(tǒng)是密不可分的整體。文件系統(tǒng)由文件和目錄組成的:數(shù)據(jù)按其內(nèi)容、結(jié)構(gòu)和用途組成若干命名的文件;目錄構(gòu)建了文件系統(tǒng)的層次化化結(jié)構(gòu),用戶創(chuàng)建子層次以便對(duì)文件進(jìn)行分類。文件系統(tǒng)可以有效地組織文件,一個(gè)目錄下的子目錄或者文件的名字是唯一的,這就保證了文件的全路徑名稱不會(huì)同時(shí)指向兩個(gè)或者更多的子目錄或者文件。
根據(jù)什么來建立層次結(jié)構(gòu)并沒有一個(gè)很有效的方法,在考慮文件安全和文件共享時(shí),層次結(jié)構(gòu)的缺陷更加明顯:一個(gè)文件在網(wǎng)絡(luò)上進(jìn)行共享時(shí),會(huì)把這個(gè)文件復(fù)制到一個(gè)公共目錄下面,同時(shí)設(shè)定好公共目錄的訪問權(quán)限,這樣一個(gè)文件就會(huì)在兩個(gè)不同的層次結(jié)構(gòu)中有著兩份拷貝,這會(huì)給文件的管理帶來很大的不方便,特別是在文件的數(shù)量都不斷增加的時(shí)候。
另外,層次化化結(jié)構(gòu)使得文件訪問效率不高:目錄隱藏了它包含的內(nèi)容,并且目錄下可能還有一層又一層的子目錄,用戶很難知道一個(gè)目錄下面到底有什么東西,用戶訪問某個(gè)文件必須通過層次型的目錄樹結(jié)構(gòu)到達(dá)其保存位置,如果不知道文件保存位置,必須遍歷整個(gè)目錄或使用操作系統(tǒng)的搜索功能,操作系統(tǒng)僅能依靠文件名來檢索和查找數(shù)據(jù)。
在過去十幾年之內(nèi),文件系統(tǒng)技術(shù)并未進(jìn)行大的變革,而新數(shù)據(jù)類型(如多媒體、e-mail)不斷出現(xiàn),它們包括了豐富的元數(shù)據(jù)。沒有給予元數(shù)據(jù)信息足夠重要的位置,對(duì)于存儲(chǔ)在文件系統(tǒng)中的數(shù)據(jù)都缺乏語義支持,因此,不能提供高層的、基于語義的關(guān)聯(lián)式數(shù)據(jù)存取。認(rèn)識(shí)到現(xiàn)有的文件系統(tǒng)的不足,學(xué)術(shù)界和工業(yè)界做了大量工作,研究如何提高文件的管理和搜索效率,最重要的研究成果是語義文件系統(tǒng),它可充分利用文件的元數(shù)據(jù)信息進(jìn)行文件瀏覽與搜索。
語義文件系統(tǒng)利用元數(shù)據(jù)抽取工具獲取更多的元數(shù)據(jù),記錄用戶活動(dòng),并采用手工或其它方法對(duì)文件進(jìn)行標(biāo)注,最后將這些信息結(jié)合起來實(shí)現(xiàn)統(tǒng)一元數(shù)據(jù),通過元數(shù)據(jù)信息在非結(jié)構(gòu)文件和數(shù)據(jù)庫數(shù)據(jù)之間建立起鏈接,實(shí)現(xiàn)了快速的基于文件屬性的文件系統(tǒng)訪問。
語義文件系統(tǒng)提供新的規(guī)則——相關(guān)性的訪問方法,相關(guān)性訪問是基于內(nèi)容訪問的特性供一種靈活的關(guān)聯(lián)方式來存取文件。文件屬性由轉(zhuǎn)換器從特定類型文件中自動(dòng)地抽取被,表達(dá)為 hkey 和valuei 對(duì)。
同時(shí),引入了虛擬文件夾的概念, 在虛擬文件夾中一個(gè)使用者可以進(jìn)行基于屬性的搜索,而且系統(tǒng)在結(jié)果集中創(chuàng)建一組文件的符號(hào)連接,提供跨越目錄層次的文件存取通路。如WinFS和Spotlight的虛擬文件夾,虛擬文件夾可采用XML格式的文本文件表示,內(nèi)容是對(duì)數(shù)據(jù)庫進(jìn)行查詢后返回的結(jié)果組成的列表,包含了指向符合某種規(guī)則的文件或文件夾的鏈接。在占用更多的存儲(chǔ)空間的情況下,可輕易實(shí)現(xiàn)一個(gè)文件同時(shí)放在幾個(gè)不同的目錄層次下面。
語義文件系統(tǒng)可實(shí)現(xiàn)對(duì)文件進(jìn)行高效地分類。如,基于 FUSE(Filesystem in Userspace,用戶空間文件系統(tǒng))的TagFS采用智能標(biāo)簽(smart tagging)機(jī)制,動(dòng)態(tài)讓數(shù)據(jù)文件具備特定的標(biāo)簽,加了標(biāo)簽的數(shù)據(jù)文件的呈現(xiàn)能依據(jù)用戶的偏好與意圖分類,并依據(jù)權(quán)重排序后呈現(xiàn)。
語義文件系統(tǒng)便于用戶對(duì)數(shù)據(jù)文件進(jìn)行高效地搜索。邏輯文件系統(tǒng) (LISFS) 使用一個(gè)數(shù)據(jù)庫為系統(tǒng)的文件提供搜索功能,數(shù)據(jù)庫表由從關(guān)鍵詞到對(duì)象的映射組成,目錄的內(nèi)容是一個(gè)符合查詢條件的對(duì)象集。蘋果計(jì)算機(jī)的聚光燈(Spotlight)是一個(gè)元數(shù)據(jù)和內(nèi)容索引系統(tǒng),并集成在 HFS 文件系統(tǒng)中。WinFS 的元數(shù)據(jù)被儲(chǔ)存在一個(gè)數(shù)據(jù)庫中;聚光燈的索引內(nèi)容和搜索結(jié)果也保存在數(shù)據(jù)庫中。Linux也有一個(gè)與聚光燈類似的系統(tǒng),叫小獵犬 (Beagle)。Beagle利用一個(gè)內(nèi)核中的文件系統(tǒng)事件服務(wù)Inotify為新文件類型提供一個(gè)即插即用的基礎(chǔ)架構(gòu)。
盡管語義文件系統(tǒng)在文件的存儲(chǔ)和檢索方面做了很多優(yōu)化的工作,相關(guān)方法的意義獲得了廣泛的肯定,但是層次化的本質(zhì)并沒有改變:語義文件系統(tǒng)只是層次化文件系統(tǒng)的重要補(bǔ)充技術(shù)。
一種新思想是把文件存儲(chǔ)與Web結(jié)合起來:Web通過加入鏈接來傳達(dá)知識(shí)擴(kuò)展了傳統(tǒng)文檔的能力。一般而言,在Web和超文本文件中,鏈接是該文件指以其他文件,讓讀者可以從一個(gè)文件自動(dòng)跳轉(zhuǎn)到另一個(gè)文件。鏈接被語義web進(jìn)行擴(kuò)展,允許鏈接自己載明從一個(gè)文件到另一個(gè)地方具有的特定關(guān)系。最重要的是:語義Web基本架構(gòu)中可以制定本體,通過以往不可能的方式進(jìn)一步表達(dá)知識(shí)。
為了使語義Web成為可能,W3C已經(jīng)制訂各項(xiàng)標(biāo)準(zhǔn),為HTML和HTTP在某種程度上的標(biāo)準(zhǔn)化提供一個(gè)可行的途徑。該語義Web標(biāo)準(zhǔn)組分成不同層次,URI和Unicode在底部, XML,名字空間和樣式作為自描述文件層在中間,RDF在頂部,它為各種應(yīng)用提供了一個(gè)通用的元數(shù)據(jù)框架。三個(gè)層上有一個(gè)為本體詞匯提供的附加層,本體層為各種不同的設(shè)計(jì)本體描述語言的想法提供一個(gè)空間,如OIL。
此外,語義Web增加了對(duì)內(nèi)容進(jìn)行機(jī)器處理的潛力,并引入了另外兩個(gè)觀點(diǎn):知識(shí)導(dǎo)航員和聯(lián)邦知識(shí)或數(shù)據(jù)庫。因此,語義Web可能成為一個(gè)容易獲得的萬能圖書館。
如果使文件存儲(chǔ)變成了Web的一部分,它可能帶來一次變革,基于這個(gè)思想,我們正在開發(fā)語義網(wǎng)絡(luò)存儲(chǔ)(Semantic Network Storage,SNStor)系統(tǒng),研究方法來如何提供豐富的元數(shù)據(jù)結(jié)構(gòu)和實(shí)施一個(gè)在線文件系統(tǒng)?;赪eb文件存儲(chǔ)一種非常重要的是性能問題,我們準(zhǔn)備用更快的數(shù)據(jù)結(jié)構(gòu)-平衡樹來取代多種鏈接列表;而且,還要研究如何壓縮文件,才能實(shí)現(xiàn)高效存儲(chǔ);研究如何用容錯(cuò)數(shù)據(jù)結(jié)構(gòu)以增加存儲(chǔ)的可靠性和可用性,如開發(fā)一致性檢查程序以提高可用性。
文件數(shù)量的高速增長預(yù)示出市場對(duì)高效率的文件存儲(chǔ)系統(tǒng)需求的急劇增長,我們相信,那些可以將數(shù)據(jù)管理和搜索以及提高存儲(chǔ)效率而減少的存儲(chǔ)成本等功能集中在一起的文件存儲(chǔ)系統(tǒng)一定會(huì)受到用戶的熱烈歡迎。
此文發(fā)表于中計(jì)在線
聯(lián)系客服