隨著互聯(lián)網(wǎng)技術的日新月異,內(nèi)容數(shù)據(jù)逐漸在各行業(yè)的業(yè)務中占據(jù)更重要的地位。日常的業(yè)務過程中,需要處理的大量電子文檔、圖片、音頻、視頻等,都屬于內(nèi)容數(shù)據(jù)范疇。
例如,某銀行的無人營業(yè)網(wǎng)點的遠程業(yè)務辦理中,要求用戶上傳身份證、簽字頁等掃描件,來核實用戶身份。為其做后端支撐的影像管理平臺,就屬于典型的內(nèi)容管理系統(tǒng)。基于該類平臺,企業(yè)替代了業(yè)務處理中的紙質化傳輸,實現(xiàn)了海量非結構化內(nèi)容數(shù)據(jù)的采集、加工、傳遞及服務的全生命周期的數(shù)據(jù)整合,大幅提升了生產(chǎn)效率。
內(nèi)容管理系統(tǒng),除了管理非結構化的內(nèi)容數(shù)據(jù)(如圖片、語音、視頻等),還需要實現(xiàn)內(nèi)容文件的元數(shù)據(jù)(如文件標簽)的管理,才能為業(yè)務系統(tǒng)提供服務,如批次上傳/下載、標簽化、全文檢索、生命周期管理、文件加工轉存、斷點續(xù)傳等。
對內(nèi)容數(shù)據(jù)進行收集、存儲、管理和利用的整個過程,已經(jīng)成為企業(yè)提高業(yè)務效率和提高盈利能力的有效方法。
01 非結構化數(shù)據(jù)概述
“非結構化數(shù)據(jù)”是什么?相較于記錄了生產(chǎn)、業(yè)務、交易和客戶信息等的結構化數(shù)據(jù),非結構化的信息涵蓋了更為廣泛的內(nèi)容。非結構化數(shù)據(jù)指的是:數(shù)據(jù)結構不規(guī)則或不完整,沒有預定義的數(shù)據(jù)模型,不方便用數(shù)據(jù)庫二維邏輯表來表現(xiàn)的數(shù)據(jù)。包括所有格式的辦公文檔、文本、圖片、XML、 HTML、各類報表、圖像和音頻/視頻信息等。
相對于結構化數(shù)據(jù),非結構化數(shù)據(jù)具有以下特點:數(shù)據(jù)存儲占比高、數(shù)據(jù)格式多樣、結構不標準且復雜、信息量豐富、處理門檻高。
當前行業(yè)公認:非結構化數(shù)據(jù)占數(shù)據(jù)總量的80%以上。結構化數(shù)據(jù)僅占到全部數(shù)據(jù)量的20%,其余80%都是以文件形式存在的非結構化和半結構化數(shù)據(jù),非結構化數(shù)據(jù)包含各種辦公文檔、圖片、視頻、音頻、設計文檔、日志文件、機器數(shù)據(jù)等。
非結構化數(shù)據(jù)的占比圖
非結構化數(shù)據(jù)沒有預定義的數(shù)據(jù)模型,不方便用數(shù)據(jù)庫二維邏輯表來表現(xiàn)。
下面對比一下結構化數(shù)據(jù)和非結構化數(shù)據(jù)的區(qū)別:
結構化數(shù)據(jù),是指由二維表結構來邏輯表達和實現(xiàn)的數(shù)據(jù),嚴格地遵循數(shù)據(jù)格式與長度規(guī)范,主要通過關系型數(shù)據(jù)庫進行存儲和管理。
結構化數(shù)據(jù)格式形式如圖下:
結構化數(shù)據(jù)
非結構化數(shù)據(jù),是數(shù)據(jù)結構不規(guī)則或不完整,沒有預定義的數(shù)據(jù)模型,不方便用數(shù)據(jù)庫二維邏輯表來表現(xiàn)的數(shù)據(jù)。包括所有格式的辦公文檔、文本、圖片、HTML、各類報表、圖像和音頻/視頻信息等。
02 非結構化數(shù)據(jù)管理存在的問題
1、數(shù)據(jù)種類繁雜,形式多樣
由于企業(yè)日常經(jīng)營管理和業(yè)務管理的需要,建立了功能各異的應用系統(tǒng)或信息化管理平臺,而這些管理系統(tǒng)和平臺中生成了形式多樣的非結構化文檔數(shù)據(jù),用以支撐企業(yè)的各類管理工作。
除此之外,還有大量與管理相關的非結構化文檔數(shù)據(jù)散存在員工個人工作電腦中。這些數(shù)據(jù)種類繁雜,有的來源于外部,有的是經(jīng)過內(nèi)部整理編研形成的,有的則是完全產(chǎn)生于內(nèi)部;涵蓋了不同格式、不同存儲載體、不同管理階段的非結構化文檔數(shù)據(jù)。
一般來說,企業(yè)擁有形式多樣的存儲設備,包括個人工作電腦以及信息化管理平臺中管理的設備,且歸屬于不同的專業(yè)領域,業(yè)務活動中產(chǎn)生的非結構化文檔數(shù)據(jù)除了常見的與辦公活動相關的非結構化文檔數(shù)據(jù)外,還包括了如照片、視頻、設計圖紙等多種形式。目前,這些不同種類的非結構化文檔數(shù)據(jù)基本處于分散狀態(tài),很難進行有效的關聯(lián)和整合。
2、信息孤島造成數(shù)據(jù)割裂現(xiàn)象嚴重
由于信息系統(tǒng)建設具有階段性特征,已有的信息系統(tǒng)建設之初僅以單個的業(yè)務需求為目標,彼此孤立,存在著比較嚴重的孤島現(xiàn)象,系統(tǒng)之間缺少橫向的數(shù)據(jù)接口,且數(shù)據(jù)標準不統(tǒng)一。即便是歸檔后進入檔案系統(tǒng)之中的文檔數(shù)據(jù)也難以實現(xiàn)有效的管理與集成。
例如,企業(yè)業(yè)務活動中存在著很多簡稱、全稱以及英文名稱并行使用的情況,很多數(shù)據(jù)標簽對應同一個事物、同一個意思卻使用不同的標簽值。隨著企業(yè)對數(shù)據(jù)資產(chǎn)價值需求的日益提升,這種現(xiàn)象的弊端亦凸顯,打通企業(yè)非結構化文檔數(shù)據(jù)的“任督二脈”,實現(xiàn)其資產(chǎn)價值勢在必行。
3、存在過多的“賬外”非結構化文檔數(shù)據(jù),缺少統(tǒng)一管控
由于企業(yè)的歸檔制度不夠完善,集團制訂的歸檔范圍未將一些應歸檔但無法通過系統(tǒng)流轉的文檔納入其中,部門相當一部分非結構化文檔數(shù)據(jù)仍保存在個人電腦之中,沒有統(tǒng)一的管理和控制,難以進行檢索和共享利用,導致企業(yè)文檔數(shù)據(jù)資產(chǎn)存在著流失的風險。
4、非結構化文檔數(shù)據(jù)管理功能不全
如不支持有版本的非結構化文檔數(shù)據(jù)管理,使用口徑不統(tǒng)一,相同文件分散在不同的業(yè)務系統(tǒng)中,無版本控制導致無法確定系統(tǒng)中版本是否為最新。再如,業(yè)務系統(tǒng)缺少歸檔功能和接口,導致部門無法及時提交應歸檔保存的非結構化文檔數(shù)據(jù),導致非結構化文檔數(shù)據(jù)資產(chǎn)容易丟失。同時,許多非結構化文檔數(shù)據(jù)往往以“附件”的形式存在于系統(tǒng)中,難以檢索與利用。
企業(yè)一些信息系統(tǒng)(如OA系統(tǒng)、ERP系統(tǒng)等)中文檔多以表單(如辦文單)的形式進行流轉,需要辦理的文檔通常作為表單的附件,其中既有word或pdf等格式的文本文檔,也有多種格式的圖片、音視頻文件等。這些非結構化文檔往往只能借助其所依附的表單信息或者簡單的文件標題等元數(shù)據(jù)加以檢索和利用,檢全率低,開發(fā)利用不足,難以開展深度的數(shù)據(jù)挖掘與分析。
5、相關制度體系不健全、管理缺位
企業(yè)現(xiàn)有的文檔管理制度并不是建立在徹底的數(shù)據(jù)清理基礎之上,因此,對于企業(yè)中生成哪些非結構化文檔,哪些需要歸檔,如何進行歸檔?如何進行管理和利用等問題,現(xiàn)有制度中均缺少系統(tǒng)、細致、可操作的規(guī)定和描述。
而且,非結構化文檔數(shù)據(jù)缺少必要的分類及元數(shù)據(jù)項。尤其是文檔生命周期流程,即從文檔生成、流轉、辦結到歸檔、保存、利用的全過程,并沒有非常清晰和規(guī)范的管理流程和要求。
同時,企業(yè)業(yè)務活動往往涉及多個參與方,既有企業(yè)內(nèi)部的部門,也有外單位,協(xié)同管理與歸口管理的矛盾突出。這就對企業(yè)的非結構化文檔數(shù)據(jù)管理提出了更高的要求,尤其是非結構化文檔數(shù)據(jù)的準確性、及時性、一致性、安全性等方面。
此外,企業(yè)非結構化文檔數(shù)據(jù)類型包括內(nèi)部發(fā)文、外部發(fā)文、收文、簽報、合同、業(yè)務文件附件及歸檔之后的檔案。除了歸檔之后的檔案數(shù)據(jù)是由數(shù)字檔案管理系統(tǒng)進行集中統(tǒng)一管理之外,歸檔之前的非結構化文檔數(shù)據(jù)往往處于分散管理的狀態(tài),存在著失存、失真、失控和失用等諸多問題,直接影響了后端檔案數(shù)據(jù)的質量,影響了文檔數(shù)據(jù)資產(chǎn)價值的發(fā)揮。
針對上述問題,要想真正實現(xiàn)企業(yè)文檔數(shù)據(jù)資產(chǎn)的科學管理,非結構化文檔數(shù)據(jù)管理勢在必行。
03 非結構化數(shù)據(jù)治理體系規(guī)劃
由于非結構化文檔數(shù)據(jù)數(shù)量大、范圍廣、數(shù)據(jù)狀態(tài)繁雜,涉及部門、人員和系統(tǒng)眾多,正所謂牽一發(fā)而動全身。因此,要順利開展非結構化文檔數(shù)據(jù)的治理,必須充分做好前期的準備工作和規(guī)劃。
在“摸清家底”—現(xiàn)狀調(diào)查和現(xiàn)狀評估的基礎上,結合《信息技術服務 治理 第5部分:數(shù)據(jù)治理規(guī)范》提出的數(shù)據(jù)治理框架,從頂層設計、數(shù)據(jù)治理環(huán)境、數(shù)據(jù)治理和數(shù)據(jù)治理過程四大部分開展非結構化文檔數(shù)據(jù)的管理。
1、頂層設計
企業(yè)的發(fā)展戰(zhàn)略、管理模式和關鍵業(yè)務活動對于企業(yè)信息化及其數(shù)據(jù)治理的方向和目標起著決定性的導向作用,同時,企業(yè)各級部門及人員對于非結構化文檔數(shù)據(jù)管理的理解與期望也將影響數(shù)據(jù)治理方案的設計。
因此,首先可以通過對企業(yè)關鍵業(yè)務活動的流程進行調(diào)查與分析,借助成熟度矩陣來評估企業(yè)非結構化文檔數(shù)據(jù)在不同業(yè)務活動中的現(xiàn)狀水平,并根據(jù)相關制度規(guī)范或行業(yè)標桿進行對標,找出差異點,作為項目開展的現(xiàn)實基礎。
然后,在上述活動的基礎上,制定企業(yè)非結構化文檔數(shù)據(jù)項目的實施規(guī)劃,包括定位、階段、原則和目標,作為項目開展的基礎與依據(jù)。
2、數(shù)據(jù)治理環(huán)境
任何管理活動的開展都離不開所處的環(huán)境,后者是前者賴以生存的生態(tài)系統(tǒng)。國內(nèi)外宏觀環(huán)境、行業(yè)環(huán)境和企業(yè)內(nèi)部環(huán)境構成了環(huán)境要素的三個層面。
在這三個層面中需要縱向考慮政策、制度標準、趨勢、文化、傳統(tǒng)等要素對于項目的影響作用,要遵循法律法規(guī)、行業(yè)監(jiān)管、內(nèi)部管控,滿足數(shù)據(jù)風險控制、數(shù)據(jù)安全和隱私的要求。
識別并評估市場發(fā)展、數(shù)據(jù)清理、競爭地位和技術變革等變化,規(guī)劃并滿足數(shù)據(jù)治理對各類資源的需求,包括人員、經(jīng)費和基礎設施。
尤其要關注企業(yè)文化、體制傳統(tǒng)對管理活動實施的潛在影響,區(qū)別有利因素和阻礙因素。
3、數(shù)據(jù)治理框架
在前述兩個步驟的基礎上,圍繞數(shù)據(jù)標準、數(shù)據(jù)質量、數(shù)據(jù)安全、元數(shù)據(jù)管理、內(nèi)容管理和文檔全生命周期管理等方面,搭建企業(yè)非結構化文檔數(shù)據(jù)管理系統(tǒng)平臺,在企業(yè)內(nèi)部打通各業(yè)務系統(tǒng)之間的壁壘,在統(tǒng)一的平臺之上規(guī)范非結構化文檔數(shù)據(jù)的管理,同時融合元數(shù)據(jù)管理和內(nèi)容管理。
文檔類型關聯(lián)著文檔的元數(shù)據(jù),不同的文檔類型具備不同的文檔元數(shù)據(jù)集合,也對應著不同的管理策略和機制。因此,需要統(tǒng)一制定符合管理和利用要求的非結構化文檔數(shù)據(jù)元數(shù)據(jù)標準體系。
內(nèi)容管理理念則作用于數(shù)據(jù)管理平臺底層,以數(shù)據(jù)內(nèi)容為中心統(tǒng)一存儲、管理企業(yè)內(nèi)部已建、在建、未系統(tǒng)化管理的非結構化文檔數(shù)據(jù),為上層業(yè)務管理、知識管理、智能搜索等業(yè)務應用的建設提供支撐。
4、數(shù)據(jù)治理過程
按照項目管理流程的一般要求,針對企業(yè)非結構化文檔數(shù)據(jù)管理具體目標和內(nèi)容,進行統(tǒng)籌規(guī)劃、構建運行、監(jiān)控評價、改進優(yōu)化四個階段的流程控制。
在此過程中,由于項目涉及企業(yè)各個層級、各個部門的眾多人員、系統(tǒng)及工作流程,為了保證項目的順利實施,需要在項目開展的同時進行變革管理(Change Management),通過調(diào)研、宣貫和培訓等手段加強企業(yè)員工對項目的認知和接受程度。
04 非結構化數(shù)據(jù)治理解決方案
非結構化數(shù)據(jù)管理在企業(yè)實踐中主要體現(xiàn)為 ECM 企業(yè)內(nèi)容管理,其解決方案是通過企業(yè)內(nèi)容管理系統(tǒng)來得到各項非結構化數(shù)據(jù)管理 工作的具體落地實施。
內(nèi)容是指各類文檔中包含的數(shù)據(jù),其中以文本、圖像、音頻、視頻等非結構化數(shù)據(jù)為主。ECM 企業(yè)內(nèi)容管理是指以一種戰(zhàn)略或方法, 來幫助企業(yè)獲取、管理、存儲、保護、利用和洞察企業(yè)組織流程相關的非結構化數(shù)據(jù),如下圖所示。
ECM 企業(yè)內(nèi)容管理是一種專注于非結構化數(shù)據(jù)領域的軟件類型, 其涵蓋了企業(yè)網(wǎng)盤、文檔管理、知識管理、文件安全交換、工程協(xié)同設計、文件安全外發(fā)、檔案管理、影像文件管理、電子文檔安全管理、文檔云、ISO 質量文件體系管理、GMP 質量文件體系管理、非結構化數(shù)據(jù)管理平臺、工程內(nèi)容管理等應用軟件,以及基于 AI 智能和 Graph 知識圖譜技術的智能推薦、智能搜索、智能定密、智能安全分析等內(nèi)容智能應用。
ECM 企業(yè)內(nèi)容管理系統(tǒng)可以幫助企業(yè)內(nèi)容管理戰(zhàn)略落地,通過內(nèi)容獲取、管理、存儲、保護、利用等方式挖掘和釋放內(nèi)容價值,最終促進企業(yè)數(shù)字化轉型,提升企業(yè)運營效率,并獲得企業(yè)商業(yè)洞察能力與長遠競爭優(yōu)勢。
Gartner 于 2017 年修正了企業(yè)內(nèi)容管理的定義:企業(yè)內(nèi)容管理是一種服務,包括內(nèi)容協(xié)作平臺、內(nèi)容服務平臺和內(nèi)容業(yè)務平臺。具體表現(xiàn)為具有通用 API 接口和多儲存庫的平臺型軟件,服務于多分支組織機構和各種應用場景。
Gartner 在《預測 2019:內(nèi)容服務的技術融合》中提出:越來越多的內(nèi)容創(chuàng)新數(shù)字業(yè)務促進了對元數(shù)據(jù)解決方案需求的增長,使得通過使用人工智能來實現(xiàn)以前只能通過人類專業(yè)知識才能實現(xiàn)的自動化解決方案變得更加具有可行性。
進一步分析 Gartner 內(nèi)容服務框架,其主要包括內(nèi)容管理平臺、內(nèi)容服務應用和內(nèi)容組件。其中內(nèi)容管理平臺是底層內(nèi)容統(tǒng)一存儲和統(tǒng)一管理的基礎平臺,提供各種 API 接口和 Connector 連接器等集成支撐;內(nèi)容服務應用強調(diào)以內(nèi)容為中心的業(yè)務應用;內(nèi)容組件是一種類似轉檔、預覽、編輯等細顆粒的內(nèi)容服務組件,其能力可輸送于內(nèi)容服務平臺和內(nèi)容服務應用。
企業(yè)內(nèi)容管理本質是為企業(yè)業(yè)務和數(shù)字化轉型提供內(nèi)容服務支撐,并具有內(nèi)容服務的快速響應能力?;趦?nèi)容服務平臺 CSP 的內(nèi)容服務應用 CSA 分為體系化 CSA 和場景化 CSA。其中體系化 CSA 覆蓋垂直業(yè)務領域的內(nèi)容服務,場景化 CSA 注重與第三方業(yè)務系統(tǒng)的集成和整合。
完整的內(nèi)容服務框架如上圖所示,其底座是內(nèi)容服務平臺,中層是基于低代碼開發(fā)技術的內(nèi)容業(yè)務平臺,上層構建起內(nèi)容協(xié)作、內(nèi)容安全、內(nèi)容管理、內(nèi)容治理、內(nèi)容合規(guī)、內(nèi)容業(yè)務、內(nèi)容智能等各種內(nèi)容應用場景。
05 總結
數(shù)據(jù)就像石油,需要經(jīng)過提純加工才能使用,才能實現(xiàn)其資產(chǎn)價值。非結構化文檔數(shù)據(jù)是“數(shù)據(jù)石油”的重要來源,企業(yè)需要遵循分級分類的管理思想,通過平臺化、智能化和安全化的管理方法,才能構建出完整的非結構化文檔數(shù)據(jù)管理體系,圍繞能給業(yè)務帶來價值的非結構化文檔數(shù)據(jù)資產(chǎn)進行建設,從而推動非結構化文檔數(shù)據(jù)向數(shù)據(jù)資產(chǎn)的轉化。