免费视频淫片aa毛片_日韩高清在线亚洲专区vr_日韩大片免费观看视频播放_亚洲欧美国产精品完整版

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
一種海量視頻數據標引平臺的設計方案
2010年12月27日 來源:智能系統(tǒng)學報 作者:張博; 張勇; 朱義; 邢春曉 [責任編輯:doeboy]
【中心議題】
*提出了一種海量視頻數據標引平臺的體系結構
*實現了相關的功能模塊
【解決方案】
*削弱了模塊之間的耦合度
*提供更加快捷、方便、準確的標引和檢索模式
世界已經進入一個信息化、高速化的階段,流媒體已經越來越廣泛地在日常生活中得到應用,互聯(lián)網上視頻類文件呈現直線上升態(tài)勢. 2009年1月,中國互聯(lián)網絡信息中心(CNNIC)發(fā)布的《第21次中國互聯(lián)網絡發(fā)展狀況統(tǒng)計報告》顯示:網絡視頻用戶相比2007年底凈增4 000多萬用戶,達到2. 02億.隨著網民數量的不斷增加,更多的用戶喜好在互聯(lián)網上收看視頻類文件.但隨即出現了需要考慮的問題,視頻文件不同于文本文件,可以直接搜索查找,對于視頻文件,搜索起來是相當困難的.
為了解決這個問題,對這個問題進行了詳細的研究.首先,對于視頻海量數據,如果是MPEG7標
準的,那么在文件的頭部可以獲得一些關于視頻內容的描述性信息,通過元數據抽取,然后針對視頻元數據進行詳細標引.如果是非MPEG7標準的,可以直接對相關的元數據進行標引.這樣,將基本的視頻文件元數據信息儲存至數據庫.
1 相關技術和知識
1. 1 數據挖掘
數據挖掘(datamining),又稱為數據庫中的知識發(fā)現(knowledge discovery in database, KDD),就
是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中,提取隱含在其中的、人們事先不知道的,但又是潛在有用的信息和知識的過程.
數據挖掘可以在任何類型的數據上進行,既可以來自社會科學,又可以來自自然科學產生的數
據,還可以是衛(wèi)星觀測得到的數據.數據形式和結構也各不相同,可以是傳統(tǒng)的關系數據庫、面向對象的高級數據庫系統(tǒng),也可以是面向特殊應用的數據庫,如空間數據庫、時序數據庫、文本數據庫和多媒體數據庫等,還可以是Web數據信息.
1. 2 元數據
元數據(metadata)是從數據發(fā)展而來,同時作為數據的一種功能,這就是為什么將其稱為“數據
的數據”或者“信息的信息”.在實際使用中,元數據以標簽或標記的形式存在,用于標識所有類型的信息.一條元數據記錄由一組屬性或元素組成,這些屬性或元素對于描述被查詢的資源是必需的.元數據有助于查找和描述信息資源以促進和改善對資源的檢索、管理和利用.在那些需要制作或管理大量文件的環(huán)境下,元數據有多種不同的用途.在圖書館里,使用標準工具生成的元數據被廣泛用于資源描述,提高了檢索的效率和可靠性.在網絡環(huán)境下,元數據被用于盡可能地挑選出大量的可用信息,從而改進萬維網上可用信息的可獲取性.除了捕獲和檢索科研語境中的結構化信息之外,元數據還可以幫助組織電子資源,促進其互用性,驗證其標識,
以及確保對它們的長期保存.通過元數據可以檢索、訪問數據庫,有效利用計算機的系統(tǒng)資源,以及對數據進行加工處理和二次開發(fā)等.
1. 3 DC (Dublin core)元數據
1995年3月,由OCLC (online computer librarycenter)和NCSAC (national center for supercomputing)聯(lián)合在美國俄亥俄州的都柏林鎮(zhèn)召開的第一屆元數據研討會上,產生了一個精簡的元數據集———都柏林核心元素集(Dublin core element se,tDC).
DC是國際通用的適用于網絡資源描述著錄的格式.它的結構簡單,數據元素的含義清晰易懂,
即使是非圖書館編目人員也能掌握.有德語、日語、葡萄牙語、西班牙語等10多種語種的版本,可擴性好,可以與其他元數據連接使用.DC由15個數據元素組成:題名、著者、主題及關鍵詞、說明、出版者、其他責任者、出版日期、類型、格式、標識、來源、語言、相關資源、覆蓋范圍、版權.這15個元素依據其描述的內容類型和范圍可分為3組:對資源內容的描述、對知識產權的描述、對外部屬性的描述.在15個元素中, DC概括了電子信息的主要特征,如
重要檢索點、輔助檢索點和關聯(lián)檢索.DC修飾詞是對15個元素的語義進行限定和修飾的詞.它的制定遵循著名的Dumb Down (向下兼容)原則,即修飾詞的語義包含于未修飾詞中.在范圍上,對未修飾詞的語義進行限定,在深度上對未修飾詞的語義進行延伸.
DC在網絡信息組織方面具有如下作用: 1) DC可以直接處理網絡數據. DC提供了全新的元數據定義,既是DC的交換格式,也是元數據的內部處理格式,給數據處理帶來極大的便利; 2) DC是為網絡資源的著錄而制定的,適用于眾多領域,同樣很好地解決了數據變長、可重復問題.結構簡單、易懂,自學就可以掌握.它的15項核心定義可根據需要擴展,彈性好,又實用; 3)它適用于世界上通用的軟件成果,便于系統(tǒng)與時俱進,便于網絡資源編目的自動化; 4) DC著錄格式簡單,大大減輕了編目人員的勞動強度.在發(fā)展網絡環(huán)境下的數字化信息系統(tǒng)中有廣闊的應用前景; 5) DC元數據是結構化的數據格式,它支持字段查詢.
1. 4 OAIS
1993年12月,澳大利亞成立“面向2001年保護澳大利亞數字信息調研組”,其目標是制定數字信息存取和保護的指南. 1994年3月,歐洲保護與存取委員會(European Commission PreservationandAccess,ECPA)在荷蘭首都阿姆斯特丹成立,其目的是發(fā)展與扶持歐洲各國圖書館、檔案館及相關組織間的協(xié)作,以確保各種格式的出版物和文檔的長期保存,并促進人們對文化遺產的存取.同年12月,ECPA與研究圖書館組(the research libraries group)聯(lián)合創(chuàng)立了數字歸檔特別工作組(the task force ondigital archiving),目的是“確保對未來以數字格式存儲的文件的存取”. 1995年初,國際標準化組織(ISO)為了開發(fā)其領域內的歸檔標準,授權空間數
據系統(tǒng)咨詢委員會(The Consultative Commit tee forSpace Data Systems,CCSDS)開發(fā)其領域內的歸檔標準,以支持空間領域數字信息的長期保存. CCSDS接受任務后,積極發(fā)動其會員機構著手制定空間領域數字信息長期保存的歸檔標準,并逐漸將該標準擴大到為政府、私企和學術界等組織的資源服務.經過CCSDS各成員的不懈努力, 2003年2月24日,國際標準ISO14721: 2003《空間數據和信息歸檔系統(tǒng)———開放檔案信息系統(tǒng)———參考模型》(space da-ta and in formation transfer systems—open archival information system—reference model)終于誕生了.
OAIS[8](open archival information system)就是一個開放的檔案館,是由人和系統(tǒng)組成的有機體,其職責是為指定的社會群體保存信息并使之可以利用,具體包括6方面的內容: 1)與生產者談判并接收恰當的信息; 2)對需要長期保存的信息取得充分的控制權; 3)由自己或聯(lián)合其他團體決定哪些群體應該成為指定用戶,并且這些用戶應該能夠懂得OAIS所提供的信息; 4)確保提供的信息對指定用戶而言是可以獨立理解的,也即是說,在沒有信息創(chuàng)建人員的幫助之下,指定用戶群能夠理解信息; 5)遵循已制定的政策和程序,確保信息的保存不發(fā)生任何意外
事故,并確保傳播的信息是已授權的原作品的拷貝或可追溯到原作品; 6)確保指定用戶可以利用到保存的信息.
OAIS中的術語“Open”指的是這一參考模型以及將來相關的標準將在開放式論壇中不斷地發(fā)展,而不是指檔案的存取不受限制.數字信息是OAIS中信息的基本格式,但OAIS不僅支持數字信息,同樣也支持非數字信息.
2 體系架構設計
整個系統(tǒng)架構如圖1所示,可以看出,該結構層次清晰,而且削弱了模塊之間的耦合度,更符合代碼復用的規(guī)范.
從圖1可以看出,系統(tǒng)架構主要有4層:基礎架構層、存儲中間件及持久層、服務中間件及業(yè)務控制層、用戶接口及表現層.
基礎架構層的上面是存儲數據的數據庫,它通過DAO和存儲中間件及持久層進行通信.存儲中間件及持久層通過Hibernate和Spring進行控制管理,形成一個完整的業(yè)務邏輯.最上層是用戶接口及表現層,用來將整個系統(tǒng)體現給用戶并進行使用.
3 功能模塊設計
3. 1 功能模塊設計
如圖2所示,系統(tǒng)用戶可以根據標引模塊對數據進行詳細標引,提交標引存儲至數據庫,然后普通用戶可以針對數據庫進行搜索查詢尋找自己有價值的數據,系統(tǒng)根據用戶查詢條件將有價值的數據返回給用戶.
系統(tǒng)主要功能如下:
對于管理員來說,需要對視頻數據進行詳細標引并存入數據庫,提供修改、刪除功能,方便針對標引不完整或者標引出錯的數據進行方便修改,對于垃圾數據進行刪除以防止影響搜索結果.
從科研角度來講由于本系統(tǒng)為自動標引加人工標引,而并不是單純地人工標引,所以在很大程度上減輕了人工標引的工作量;并且更重要的是對于視頻數據也更大程度上增加了其準確度,更方便用戶在更短的時間內搜索到最有價值的數據.
3. 2 具體功能模塊
1)添加標引模塊
如圖3所示,本模塊中用戶可以根據系統(tǒng)定義好的DC對文件進行標引,其中15項為DC核心元數據,其余為擴展的元數據,按照數據分類為22~33項不等.確認無誤提交后存儲到數據庫.
考慮到一般性和通用性,本系統(tǒng)中,添加標引的類型只有3種:下拉菜單、指定路徑和輸入框.添加過程中自動定義日期以及時間格式是本模塊的一大亮點,也是一大難點.
2)修改標引模塊
本模塊實現用戶對于數據文件標引出現失誤導致錯誤的情況下進行修正的功能.
3)查找標引模塊
本模塊實現用戶對于已標引或者為標引的數據進行查找功能,此模塊包含簡單搜索以及高級搜索,簡單搜索只針對于文件名以及文件內容所包含的數據進行搜索,高級搜索可以依據一些核心的元數據進行搜索.
4)刪除標引模塊
本模塊實現針對一些重復數據以及個別錯誤數據進行刪除操作.
5)自動標引模塊
如圖4所示,本模塊實現系統(tǒng)用戶指定目標目錄,針對指定目錄中的視頻文件進行批量掃描并提取部分元數據,存儲所提取元數據至數據庫.
4 標引的實現和應用
本系統(tǒng)使用Java語言,采用Eclipse、Mysql、Tomcat等工具開發(fā).該系統(tǒng)采用Jsp + Struts +Hi-
bernate +Mysql的架構.
使用本系統(tǒng),可以使用戶將數據進行更詳細的標引,供給用戶填寫和提交,并存入數據庫,方便對于已標引的數據進行修改和刪除,在搜索引擎方面可以更方便快捷地獲得有價值的數據.系統(tǒng)的應用場景有很多,比如,在圖書館中,用戶需要獲得一本書,而這本書的書名有很多作者寫過,而用戶需要固定作者、固定出版日期的書.此時,使用本系統(tǒng)就可以很輕松地標引完書目,使得用戶可以在最短的時間內找到所找書籍的位置. 系統(tǒng)界面的截圖參見圖5.
5 結束語
隨著互聯(lián)網帶寬的不斷增大,視頻文件越來越多地應用在互聯(lián)網上,并且視頻網站也是越來越多.而像這么多的視頻數據想要搜索到自己有價值的數據猶如大海撈針,因為視頻文件不像文本文件,可以直接進行文本搜索就能得到.在視頻領域基本很多都是自動提取元數據進行標引,但是這樣帶來的問題是:由于視頻文件的種類很多,在自動標引的過程中很容易出現錯誤而導致用戶搜索出的數據沒有價值.所以采用自動提取加手動標引的方法,擴展DC元素,對每個視頻文件都進行更詳細的標引,方便了更多用戶使用更多元素在更短時間內搜索獲得有價值的數據.本系統(tǒng)可以作為任何有視頻標引需求的系統(tǒng)的子系統(tǒng),能夠為用戶提供更方便快捷的服務.
同時,系統(tǒng)中也存在一些有待進一步改進和增加的功能,例如,在自動提取中增加更多視頻文件格式,對所標引的數據進行更詳細分類等等.作者正逐步完善這些功能.
本站僅提供存儲服務,所有內容均由用戶發(fā)布,如發(fā)現有害或侵權內容,請點擊舉報。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
Access教程 第一章 Access數據庫基礎
停車場管理系統(tǒng)概要設計說明書
開源快速開發(fā)平臺,G4Studio v3.2 發(fā)布
Exchange 2013郵箱數據庫導出和導入數據
PLC的結構單元詳解
甲骨文ERP與SAP ERP的六大區(qū)別
更多類似文章 >>
生活服務
分享 收藏 導長圖 關注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服