亚洲午夜一区二区电影院,99精品国产一区二区三区

來源：人機(jī)與認(rèn)知實驗室

概要：醫(yī)學(xué)知識圖譜是實現(xiàn)智慧醫(yī)療的基石，有望帶來更高效精準(zhǔn)的醫(yī)療服務(wù)。

摘要：醫(yī)學(xué)知識圖譜是實現(xiàn)智慧醫(yī)療的基石，有望帶來更高效精準(zhǔn)的醫(yī)療服務(wù)。然而，現(xiàn)有知識圖譜構(gòu)建技術(shù)在醫(yī)學(xué)領(lǐng)域中普遍存在效率低，限制多，拓展性差等問題。針對醫(yī)療數(shù)據(jù)跨語種，專業(yè)性強(qiáng)，結(jié)構(gòu)復(fù)雜等特點，對構(gòu)建醫(yī)學(xué)知識圖譜的關(guān)鍵技術(shù)進(jìn)行了自底向上的全面解析，涵蓋了醫(yī)學(xué)知識表示、抽取、融合和推理以及質(zhì)量評估五部分內(nèi)容。此外，還介紹了醫(yī)學(xué)知識圖譜在信息檢索、知識問答、智能診斷等醫(yī)療服務(wù)中的應(yīng)用現(xiàn)狀。最后，結(jié)合當(dāng)前醫(yī)學(xué)知識圖譜構(gòu)建技術(shù)面臨的重大挑戰(zhàn)和關(guān)鍵問題，對其發(fā)展前景進(jìn)行了展望。

關(guān)鍵詞：知識圖譜；知識獲?。恢R融合；知識推理；自然語言處理

引言

自 1998 年萬維網(wǎng)之父 Tim Berners-Lee 提出語義網(wǎng)，人們不斷在網(wǎng)絡(luò)等電子載體上表達(dá)和修正對客觀世界的理解，形成了一個概念標(biāo)準(zhǔn)化的過程，同時隨著鏈接開放數(shù)據(jù) (Linked Open Data)的規(guī)模激增，互聯(lián)網(wǎng)上散落了越來越多的知識元數(shù)據(jù)。

知識圖譜就是在這樣的大數(shù)據(jù)背景下產(chǎn)生的一種知識表示和管理的方式，強(qiáng)調(diào)語義檢索能力。近年來，在人工智能的蓬勃發(fā)展下，知識圖譜涉及到的知識抽取、表示、融合、推理、問答等關(guān)鍵問題得到一定程度的解決和突破，知識圖譜成為知識服務(wù)領(lǐng)域的一個新熱點，受到國內(nèi)外學(xué)者和工業(yè)界廣泛關(guān)注。

知識圖譜的前身是語義網(wǎng)，它吸收了語義網(wǎng)、本體在知識組織和表達(dá)方面的理念，使得知識更易于在計算機(jī)之間和計算機(jī)與人之間交換、流通和加工。具體來說，一個知識圖譜由模式圖、數(shù)據(jù)圖及兩者之間的關(guān)系組成：模式圖對人類知識領(lǐng)域的概念層面進(jìn)行描述，強(qiáng)調(diào)概念及概念關(guān)系的形式化表達(dá)，模式圖中節(jié)點是概念實體，邊是概念間的語義關(guān)系，如 part-of；數(shù)據(jù)圖對物理世界層面進(jìn)行描述，強(qiáng)調(diào)一系列客觀事實。數(shù)據(jù)圖中的節(jié)點有兩類，一是模式圖中的概念實體，二是描述性字符串，數(shù)據(jù)圖中的邊是具體事實的語義描述；模式圖和數(shù)據(jù)圖之間的關(guān)系指數(shù)據(jù)圖的實例與模式圖的概念之間的對應(yīng)，或者說模式圖是數(shù)據(jù)圖的模具。

著名的通用知識圖譜中有，谷歌“Knowledge Graph”、搜狗“知立方”、YAGO、DBpedia等，它們具有規(guī)模大、領(lǐng)域?qū)挘罅砍ＷR等特點。目前，醫(yī)學(xué)是知識圖譜應(yīng)用最廣的垂直領(lǐng)域之一，如上海曙光醫(yī)院構(gòu)建的中醫(yī)藥知識圖譜、本體醫(yī)療知識庫 SNOMED-CT，IBM Watson Health等應(yīng)用近兩年也開始進(jìn)入人們視線。

知識圖譜是智能大數(shù)據(jù)的前沿研究問題，它以獨有的技術(shù)優(yōu)勢順應(yīng)了信息化時代的發(fā)展，比如漸增式的數(shù)據(jù)模式設(shè)計；良好的數(shù)據(jù)集成；現(xiàn)有 RDF、OWL等標(biāo)準(zhǔn)支持；語義搜索和知識推理能力等。在醫(yī)學(xué)領(lǐng)域，隨著區(qū)域衛(wèi)生信息化及醫(yī)療信息系統(tǒng)的發(fā)展，積累了海量的醫(yī)學(xué)數(shù)據(jù)。如何從這些數(shù)據(jù)中提煉信息，并加以管理、共享及應(yīng)用，是推進(jìn)醫(yī)學(xué)智能化的關(guān)鍵問題，是醫(yī)學(xué)知識檢索、臨床診斷、醫(yī)療質(zhì)量管理、電子病歷及健康檔案智能化處理的基礎(chǔ)。

本文首先介紹了醫(yī)學(xué)知識圖譜的構(gòu)建技術(shù)，主要涉及到醫(yī)學(xué)知識表示；醫(yī)學(xué)知識抽取，包括實體、關(guān)系、屬性的抽??；醫(yī)學(xué)知識融合；醫(yī)學(xué)知識推理和質(zhì)量評估五個部分。然后介紹了基于醫(yī)學(xué)知識圖譜的包括檢索、問答、決策等的應(yīng)用現(xiàn)狀。最后對醫(yī)學(xué)知識圖譜的研究、應(yīng)用重點，面臨的挑戰(zhàn)以及未來的發(fā)展趨勢進(jìn)行了展望。

1 醫(yī)學(xué)知識圖譜構(gòu)建

本文將醫(yī)學(xué)知識圖譜構(gòu)建技術(shù)歸納為五部分，即醫(yī)學(xué)知識的表示、抽取、融合、推理以及質(zhì)量評估。通過從大量的結(jié)構(gòu)化或非結(jié)構(gòu)化的醫(yī)學(xué)數(shù)據(jù)中提取出實體、關(guān)系、屬性等知識圖譜的組成元素，選擇合理高效的方式存入知識庫。醫(yī)學(xué)知識融合對醫(yī)學(xué)知識庫內(nèi)容進(jìn)行消歧和鏈接，增強(qiáng)知識庫內(nèi)部的邏輯性和表達(dá)能力，并通過人工或自動的方式為醫(yī)學(xué)知識圖譜更新舊知識或補充新知識。借助知識推理，推出缺失事實，自動完成疾病診斷與治療。質(zhì)量評估則是保障數(shù)據(jù)的重要手段，提高醫(yī)學(xué)知識圖譜的可信度和準(zhǔn)確度。

1.1 醫(yī)學(xué)知識表示

知識表示是為描述世界所做的一組約定，是知識符號化、形式化、模式化的過程，主要研究計算機(jī)存儲知識的方法，其表示方式影響系統(tǒng)的知識獲取、存儲及運用的效率。然而醫(yī)學(xué)數(shù)據(jù)種類繁雜，存儲方式不一，電子病歷格式和標(biāo)準(zhǔn)不同，經(jīng)常涉及交叉領(lǐng)域等特點，導(dǎo)致醫(yī)學(xué)領(lǐng)域與其他領(lǐng)域在知識表示方面有所差異，同時也給醫(yī)學(xué)領(lǐng)域的知識表示帶來極大的挑戰(zhàn)。

早期醫(yī)療知識庫運用的知識表示方法有：謂詞邏輯表示法，產(chǎn)生式表示法，框架表示法，語義網(wǎng)表示法等等。比如， SNOMED-CT，早期的 MYCIN 系統(tǒng)，大腸桿菌數(shù)據(jù)庫 EcoCyc等。隨著知識圖譜中知識增長、關(guān)系復(fù)雜化，這些方法由于表示能力有限且缺乏靈活性，不再作為主要的知識表示方法，更多是作為醫(yī)學(xué)知識表示的輔助或補充。

本體表示法以網(wǎng)絡(luò)的形式表示知識，即以（實體 1，關(guān)系，實體 2）三元組來表示相關(guān)聯(lián)的兩個節(jié)點（實體），在知識圖譜提出之后逐漸得到認(rèn)可。它借鑒了語義網(wǎng)表示法但又有所區(qū)別：本體關(guān)注的是實體固有特征，比后者更聚焦，更深入，因而也具有更大的發(fā)展?jié)摿?。而本體的描述語言也多種多樣：主要有RDF和RDF-S、DAML、OWL等。使用本體表示醫(yī)學(xué)術(shù)語可以提升數(shù)據(jù)整合能力：建立強(qiáng)大、可互操作的醫(yī)療信息系統(tǒng)；滿足重用共享傳輸醫(yī)療數(shù)據(jù)的需求；提供基于不同語義標(biāo)準(zhǔn)的統(tǒng)計聚合。醫(yī)學(xué)領(lǐng)域本體的構(gòu)建，需要深入分析醫(yī)學(xué)術(shù)語的結(jié)構(gòu)和概念，才能將晦澀甚至是跨語言的醫(yī)學(xué)知識有效地表達(dá)出來。目前的醫(yī)學(xué)知識本體庫有：醫(yī)學(xué)概念知識庫LinkBase，TAMBIS本體庫(TaO)等等。

知識圖譜的節(jié)點個數(shù)影響著網(wǎng)絡(luò)的結(jié)構(gòu)復(fù)雜度及推理的效率和難度。知識表示學(xué)習(xí)借助機(jī)器學(xué)習(xí)，將研究對象的語義信息表示為稠密低維向量，有效解決數(shù)據(jù)稀疏問題，從而提升知識融合和推理性能[。低維向量表示是一種分布式表示（distributed representation），它模仿人腦中使用多個神經(jīng)元存儲對象的工作機(jī)制，使用多維度向量表示對象的語義信息。知識表示學(xué)習(xí)中的代表模型有：結(jié)構(gòu)化表示法（Structure Embedding，SE），單層神經(jīng)網(wǎng)絡(luò)模型（single layer model，SLM），隱變量模型（latent factor model，LFM），基于TransE的翻譯模型等等。這些模型考慮實體間的協(xié)同性和計算開銷，用向量表示實體，再對表示實體的向量或關(guān)系進(jìn)行相應(yīng)的矩陣變換，提出評價函數(shù)來衡量實體間的相關(guān)性，并為之后的知識補全和推理提供重要參考。Kleyko 等人證明了分布式表示方法表示醫(yī)學(xué)圖像進(jìn)行分類精度能夠與最佳經(jīng)典方法相同；Henriksson 等人對比使用多種知識表示方法表示 EHR 中 4 類記錄：診斷記錄，藥物使用記錄，治療方法和病程記錄。顯然，知識表示學(xué)習(xí)無疑為醫(yī)學(xué)知識圖譜的知識表示開辟了新思路。

1.2 醫(yī)學(xué)知識抽取

醫(yī)學(xué)知識圖譜的構(gòu)建主要是從非結(jié)構(gòu)化數(shù)據(jù)中人工或自動地提取實體、關(guān)系和屬性。人工提取是通過專家依據(jù)一定規(guī)則收集并整理相關(guān)信息，提取知識。目前通過人工構(gòu)建的醫(yī)學(xué)知識庫包括臨床醫(yī)學(xué)知識庫、SNOMED-CT、ICD-10 等。自動提取則是利用機(jī)器學(xué)習(xí)、人工智能、數(shù)據(jù)挖掘等信息抽取技術(shù)，從數(shù)據(jù)源中自動提取出知識圖譜的基本組成元素。自動構(gòu)建醫(yī) 學(xué)知識庫的典型例子有一體化醫(yī)學(xué)語言系統(tǒng) UMLS。人工提取的代價太大，知識的自動提取是目前重點的研究方向，也是將來構(gòu)建知識圖譜的趨勢。本節(jié)主要介紹如何自動從數(shù)據(jù)源中抽取知識和信息，包括實體、關(guān)系和屬性抽取。

1.2.1 實體抽取

識別文本中的生物醫(yī)學(xué)實體，其目的在于通過識別關(guān)鍵概念進(jìn)一步提取關(guān)系和其他信息，并將識別的概念以標(biāo)準(zhǔn)化的形式表示出來。醫(yī)學(xué)領(lǐng)域的實體抽取是從醫(yī)學(xué)數(shù)據(jù)源中提取出特定類型的命名實體。本節(jié)將醫(yī)學(xué)實體的抽取方法歸納為三類：基于醫(yī)學(xué)詞典及規(guī)則的方法、基于醫(yī)學(xué)數(shù)據(jù)源的統(tǒng)計學(xué)和機(jī)器學(xué)習(xí)方法以及深度學(xué)習(xí)方法。

1）基于醫(yī)學(xué)詞典及規(guī)則的方法

該方法通過人工定義規(guī)則和模式匹配生成詞典或使用現(xiàn)有醫(yī)學(xué)詞典從語料中抽取醫(yī)學(xué)實體，該方法是具有挑戰(zhàn)性的。首先，目前沒有完整的字典囊括所有類型的生物命名實體，所以簡單的文本匹配算法是不足以應(yīng)對實體識別的。其次，相同的單詞或短語其意義可根據(jù)上下文的改變而指代不同的物體（如，
鐵蛋白可以是生物物質(zhì)或?qū)嶒炇覝y試方法）。再次，許多生物或藥物實體同時擁有多個名稱（如 PTEN 和 MMAC指代相同的基因）。因此，基于醫(yī)學(xué)詞典及規(guī)則只在最早期被廣泛使用。 Friedman等通過自定義語義模式和語法來識別電子病歷中的醫(yī)學(xué)信息。Wu等人使用了 CHV和 SNOMED-CT兩個醫(yī)學(xué)詞典得到了不錯的實驗結(jié)果。雖然該方法能達(dá)到很高的準(zhǔn)確度，但無法徹底解決上述問題，也過分依賴專家編寫的詞典和規(guī)則，無法適應(yīng)醫(yī)學(xué)領(lǐng)域詞匯不斷涌現(xiàn)的現(xiàn)實情況。

2）基于醫(yī)學(xué)數(shù)據(jù)源和數(shù)學(xué)模型的機(jī)器學(xué)習(xí)方法

該方法通過使用統(tǒng)計學(xué)和機(jī)器學(xué)習(xí)方法，結(jié)合醫(yī)學(xué)數(shù)據(jù)源的特點訓(xùn)練模型，進(jìn)行實體識別。在英文醫(yī)學(xué)實體抽取方面，最具代表性的標(biāo)注語料是 I2B2 2010發(fā)布的英文電子病歷標(biāo)注語料。另外，還有 SemEval、NTCIR等評測，以及 NCBI語料庫等，都提供了英文醫(yī)學(xué)實體標(biāo)注數(shù)據(jù)。

目前常用方法有隱馬爾可夫模型（HMM），條件隨機(jī)場模型（CRF），支持向量機(jī)模型（SVM）等。Kazama 等人使用 SVM模型進(jìn)行生物醫(yī)學(xué)命名實體識別，引入了 POS，詞緩存，無監(jiān)督訓(xùn)練得到的 HMM狀態(tài)等特征。該方法在 GENIA 語料庫中準(zhǔn)確率高于最大熵標(biāo)記方法，并能較高效地應(yīng)用于大規(guī)模語料集。Zhou等人通過一系列特征訓(xùn)練 HMM 模型，包括詞的構(gòu)成特征，形態(tài)特征，POS，語義觸發(fā)，文獻(xiàn)內(nèi)名稱別名等。其識別準(zhǔn)確率達(dá)66.5%，在 GENIA語料庫中的召回率達(dá)66.6％。綜合以上方法，Chen 和 Friedman利用MEDLEE系統(tǒng)來識別與生物醫(yī)學(xué)文本中與表型信息相對應(yīng)的短語。該系統(tǒng)使用自然語言技術(shù)來識別期刊文章摘要中存在的表型短語。生物醫(yī)學(xué)的實體識別常?？墒褂幂^小的表型相關(guān)術(shù)語的知識庫。Chen 和 Friedman自動導(dǎo)入與語義類別相關(guān)的數(shù)千個 UMLS 術(shù)語，如細(xì)胞體功能和細(xì)胞功能障礙，以及哺乳動物本體中的幾百個術(shù)語；并手動添加了幾百個術(shù)語。實驗結(jié)果表明，其實體識別準(zhǔn) 確率達(dá) 64.0％，召回率達(dá) 77.1％。雖然結(jié)果不高，但為之后的研究人員提供了一條可行的思路。

在醫(yī)學(xué)領(lǐng)域，命名實體識別的痛點在于數(shù)據(jù)質(zhì)量的良莠不齊以及人工標(biāo)注的專業(yè)性要求高。目前有專門研究如何降低對于數(shù)據(jù)標(biāo)注依賴的研究，其原理主要是利用海量未標(biāo)注數(shù)據(jù)持續(xù)提升模型性能，從小樣本中進(jìn)行學(xué)習(xí)，自我探索逐步學(xué)習(xí)新知識，形成一個交互學(xué)習(xí)過程。

3）深度學(xué)習(xí)方法

深度學(xué)習(xí)近年來開始被廣泛應(yīng)用于命名實體識別，最具代表性的模型是2011年Collobert提出的一個深層神經(jīng)網(wǎng)絡(luò)模型，其效果和性能超過了傳統(tǒng)算法。Sahu等人所提出的 CNN 與 RNN 級聯(lián)的方法生成詞嵌入特征，其結(jié)果優(yōu)于目前最好的算法且不需要過多的特征工程。在醫(yī)學(xué)領(lǐng)域，We 等人基于CRF和雙向RNN生成特征，再使用SVM 進(jìn)行疾病命名實體識別。目前醫(yī)學(xué)信息命名實體識別任務(wù)中最主流的深度學(xué)習(xí)模型是 BiLSTM-CRF 模型，Jagannatha等人對比了 CRF，BiLSTM，BiLSTM-CRF 三種模型，以及一些它們的改進(jìn)模型，在英文電子病歷命名實體識別的效果，實驗結(jié)果表明所有基于 LSTM 的模型都比 CRF效果更好，并且 BiLSTM 結(jié)合 CRF 模型能夠進(jìn)一步提高評測結(jié)果 2%-5%的準(zhǔn)確率。

1.2.2 實體抽取

本文將醫(yī)學(xué)實體關(guān)系抽取歸結(jié)為兩類： a）同類型醫(yī)學(xué)實體層級關(guān)系抽取，如疾病的“腸胃病-慢性胃炎”等；b）不同類型關(guān)系抽取，如“疾病-癥狀”等。

1）同類型醫(yī)學(xué)實體層級關(guān)系抽取

同類型醫(yī)學(xué)實體層級關(guān)系相對較為單一，主要是 is-a 和 part-of關(guān)系。由于醫(yī)學(xué)有其嚴(yán)謹(jǐn)?shù)膶W(xué)科體系和行業(yè)規(guī)范，因此此類關(guān)系往往在醫(yī)學(xué)詞典、百科、信息標(biāo)準(zhǔn)中進(jìn)行。 ICD-10、SNOMED等醫(yī)療詞典或醫(yī)療數(shù)據(jù)庫重點關(guān)注醫(yī)學(xué)專業(yè)術(shù)語、受限詞匯的分類和概念標(biāo)準(zhǔn)化工作，權(quán)威且涵蓋范圍廣，在數(shù)量和質(zhì)量上都有所保障，被醫(yī)療行業(yè)廣泛認(rèn)可，是抽取層級間實體關(guān)系的首選來源。針對具體的醫(yī)療詞典、知識庫提供的數(shù)據(jù)格式和開放 API 接口，可通過爬蟲、正則表達(dá)式、D2R映射等技術(shù)從中抽取分層結(jié)構(gòu)，抽取三元組來匹配、添加上下位關(guān)系。

2）不同類型醫(yī)學(xué)實體關(guān)系抽取

不同類型醫(yī)學(xué)實體間的語義關(guān)系識別大致基于兩大不同數(shù)據(jù)源而實現(xiàn)。一是百科或其他結(jié)構(gòu)化數(shù)據(jù)源，如 Medline，UMLS 等；二是半結(jié)構(gòu)化的電子病歷。

醫(yī)學(xué)實體類型相對有限（主要是疾病、癥狀、治療、藥品等），目前通常在兩個實體間預(yù)定義好要抽取的關(guān)系類型，再將抽取任務(wù)轉(zhuǎn)換為分類問題來處理。如何預(yù)定義實體關(guān)系目前尚未有統(tǒng)一的標(biāo)準(zhǔn)，這取決于醫(yī)學(xué)知識圖譜構(gòu)建過程中模式圖的設(shè)置、實體識別情況、語料來源、構(gòu)建目的及應(yīng)用場景等，如在 I2B2 2010 評測中，將電子病歷中的實體關(guān)系分成了醫(yī)療問題與醫(yī)療問題、醫(yī)療問題與治療、醫(yī)療問題與檢查三類。

近幾年，Uzuner 團(tuán)隊在句子層面抽取了六類醫(yī)療實體關(guān)系，使用實體順序和距離、鏈接語法和詞匯特征來訓(xùn)練 6 個 SVM 分類器，通過對比實驗，指出詞匯特征在實體關(guān)系識別中的重要作用。在此基礎(chǔ)上，基于Medline 摘要，F(xiàn)runza 等抽取了疾病、治療間的三種關(guān)系，并引入 UMLS 生物和醫(yī)療實體特征，取得了不錯的實驗結(jié)果。而 Abacha 等在同樣的任務(wù)中使用人工模板和 SVM 的混合模型，取得了 94.07%的平均 F值。該研究指出，在樣本數(shù)較少時，模板匹配方法起主要作用，而面向海量樣本時則 SVM 起主要作用。

此外，在關(guān)系識別的分類方法對比研究中，Bruijn 等人在 I2B2 2010 評測中對比研究了有監(jiān)督分類和基于 Self-training 的半監(jiān)督分類的表現(xiàn)，表明了UMLS、依存句法分析結(jié)果和未標(biāo)記數(shù)據(jù)對關(guān)系識別有著顯著影響。除了預(yù)定義關(guān)系然后轉(zhuǎn)換為分類任務(wù)來處理的方法，還有少量研究采用了模板匹配、統(tǒng)計共現(xiàn)等方法來抽取關(guān)系。如在 Medline 摘要中通過統(tǒng)計基因名的共現(xiàn)來提取關(guān)系，并根據(jù)共現(xiàn)矩陣生成了關(guān)系圖，或在 Medline 摘要中通過語法依賴樹進(jìn)行圖的模式匹配，進(jìn)而抽取因果關(guān)系。

1.2.3 屬性抽取

屬性抽取是指對屬性和屬性值對（attribute-value pair， AVP）的抽取，其中屬性的抽取是指為醫(yī)學(xué)實體構(gòu)造屬性列表，如藥品的屬性包括適應(yīng)癥、禁忌癥等。屬性值的抽取是指為各實體附加具體的屬性值，如阿莫西林是青霉素過敏者禁用。常見的抽取方法包括從開放鏈接數(shù)據(jù)提取、從結(jié)構(gòu)化數(shù)據(jù)庫提取、從百科類站點提取、從垂直網(wǎng)站進(jìn)行包裝器歸納、以及利用模式匹配從查詢?nèi)罩局刑崛〉?。對于醫(yī)學(xué)知識圖譜來說，主要通過上文提及的醫(yī)學(xué)詞典和主流醫(yī)學(xué)站點來進(jìn)行。值得一提的是，前者關(guān)于屬性和屬性值對的描述相對比較稀疏（特別對于中文領(lǐng)域），因此需從主流醫(yī)學(xué)站點進(jìn)一步抽取整合。

對于 AVP 結(jié)構(gòu)化程度比較高的網(wǎng)站，如維基百科、A+醫(yī) 學(xué)百科6等，有規(guī)整的信息框（InfoBox），可以方便地爬取識別InfoBox 部分，直接提取該實體對應(yīng)的屬性名和屬性值，置信度高，但規(guī)模較小。而對于更多形式各異、半結(jié)構(gòu)化的醫(yī)藥站點和垂直文本來說，通常是構(gòu)建面向站點的包裝器，從待抽取站點采樣并標(biāo)注幾個典型的詳細(xì)頁面(Detailed Pages)，利用這些頁面通過模式學(xué)習(xí)自動構(gòu)建出一個或多個類 Xpath 表示的模式，然后將其應(yīng)用在該站點的其他詳細(xì)頁面中從而實現(xiàn)自動化的 AVP 抽取。

1.3 醫(yī)學(xué)知識融合

知識融合是高層次的知識組織，使不同來源的知識在同一框架規(guī)范下進(jìn)行數(shù)據(jù)整合、消歧、加工、推理驗證、更新等步驟7，目的是解決知識復(fù)用的問題，增強(qiáng)知識庫內(nèi)部的邏輯性和表達(dá)能力。針對知識圖譜中不同粒度的知識對象，知識融合可細(xì)分為實體對齊、知識庫的融合等。

1.3.1 實體對齊

醫(yī)療知識圖譜中知識來源的多樣性導(dǎo)致了知識重復(fù)、知識質(zhì)量良莠不齊、知識間關(guān)聯(lián)不夠明確等問題。醫(yī)學(xué)實體在不同的數(shù)據(jù)源中存在嚴(yán)重的多元指代問題，例如阿奇霉素在百度百科中被稱為希舒美，在 A+醫(yī)學(xué)百科中別名有阿齊霉素、阿奇紅霉素、疊氮紅霉素等，商品名有泰力特、希舒美、舒美特等。因此實體對齊是醫(yī)學(xué)知識融合中非常重要的一步。實體對齊是判斷多源異構(gòu)數(shù)據(jù)中的實體是否指向真實世界同一對象的過程。

現(xiàn)有的對齊算法有成對實體對齊與集體實體對齊兩類。成對實體對齊方法只考慮實例及其屬性相似度，包括基于傳統(tǒng)概率模型的實體對齊方法和基于機(jī)器學(xué)習(xí)的實體對齊方法。前者以Fellegi等人將基于屬性相似性評分的實體對齊問題轉(zhuǎn)換為分類問題的工作為基礎(chǔ)，至今仍應(yīng)用于很多實體對齊工作中；后者常用的對齊方法有分類回歸樹算法、ID3 決策樹算法、SVM 分類方法、集成學(xué)習(xí)框架等基于有監(jiān)督學(xué)習(xí)的方法和無監(jiān)督學(xué)習(xí)下的層次圖模型等基于無監(jiān)督學(xué)習(xí)的方法。

集體實體對齊在成對實體對齊的基礎(chǔ)上在計算實體相似度時加入了實體間的相互關(guān)系，分為局部集體實體對齊與全局集體實體對齊。前者典型算法是使用向量空間模型和余弦相似度計算實體相似性，準(zhǔn)確率不高，但召回率和運行速度比較可觀。后者通過不同匹配決策之間的相互影響來調(diào)整實體間的相似度，又分為基于相似性傳播和基于概率模型的集體實體對齊方法?；谙嗨菩詡鞑サ姆椒ㄍㄟ^初始匹配以“bootstrapping” 方式迭代地產(chǎn)生新的匹配[。Lacoste-Julien 等人在此基礎(chǔ)上提出的 SiGMa 算法更適合大規(guī)模知識庫，但需要一定的人工干預(yù)?；诟怕誓Ｐ偷姆椒ㄍㄟ^為實體匹配關(guān)系和決策建立復(fù)雜的概率模型，包括關(guān)系貝葉斯網(wǎng)絡(luò)模型、LDA 分配模型、CRF 模型和 Markov邏輯網(wǎng)模型等，可以提高匹配效果，但效率還有待提高。

當(dāng)來自不同知識源的數(shù)據(jù)出現(xiàn)數(shù)據(jù)沖突時，需要考慮知識源的可靠性以及不同信息在各知識源中出現(xiàn)的頻度等因素。阮彤等人]在構(gòu)建中醫(yī)藥知識圖譜時對數(shù)據(jù)源的可信度進(jìn)行評分，結(jié)合數(shù)據(jù)在不同來源中出現(xiàn)的次數(shù)，對數(shù)據(jù)項進(jìn)行排序，并補充到相應(yīng)的屬性值字段中。

隨著知識庫規(guī)模擴(kuò)大和實體數(shù)量的增加，知識庫中的實體對齊越來越受到重視，如何準(zhǔn)確高效地實體對齊是未來知識融合的研究重點之一。

1.3.2 知識庫融合

構(gòu)建知識庫時需求和設(shè)計理念不同會導(dǎo)致知識庫中數(shù)據(jù)的多樣性和異構(gòu)性。對于龐雜的醫(yī)療知識來說，當(dāng)前多數(shù)知識庫都是針對某個科室或者某類疾病或藥物來構(gòu)建的，比如脾胃病知識庫[60]、中醫(yī)藥知識圖譜等，若要得到更完善的醫(yī)療知識圖譜，需要對不同的醫(yī)療知識庫進(jìn)行融合以及將尚未涵蓋的知識和不斷產(chǎn)生的新知識融合到已有的知識圖譜中。醫(yī)療知識圖譜的構(gòu)建是一個不斷迭代更新的過程。

知識庫融合的研究工作始于“本體匹配”，初期針對本體類別的語義相似性進(jìn)行匹配。隨著知識庫規(guī)模擴(kuò)大和結(jié)構(gòu)復(fù)雜化，類別、屬性以及實體和它們之間的相互關(guān)系等也成為考慮的因素。Suchanek 等人提出的基于概率的知識融合算法PAIRS以兩個知識庫作為輸入，能夠高效地跨本體同時對齊類別、實例、屬性和關(guān)系。但 PARIS 需要一定的人工參與。由于人類的精力和認(rèn)知有限，自動地從 Web 中獲取知識并進(jìn)行融合十分必要。Dong 等人提出了將以消除歧義的三元組的形式從整個網(wǎng)絡(luò)中提取事實與使用 PRA 和神經(jīng)網(wǎng)絡(luò)模型兩種方法從 Freebase 圖得到的先驗知識融合在一起的知識融合方法，可達(dá)到自動構(gòu)建 Web 規(guī)模的概率知識庫的水準(zhǔn)，提升了效率。

在醫(yī)療領(lǐng)域，Dieng-Kuntz 等人將醫(yī)療數(shù)據(jù)庫轉(zhuǎn)換為醫(yī)療本體，然后對其他文本語料使用半自動的語言工具進(jìn)行語義提取，在人工控制下對本體進(jìn)行擴(kuò)展和補全，并用啟發(fā)式規(guī)則自動建立知識的概念層次。Baorto 等人將數(shù)據(jù)源添加到臨床信息系統(tǒng)時先確定數(shù)據(jù)的控制術(shù)語是否已經(jīng)存在，然后將新術(shù)語添加到 MED( Medical Entities Dictionary)，同時建立審計流程以保證引入數(shù)據(jù)的一致性。

目前醫(yī)療領(lǐng)域知識圖譜的融合技術(shù)雖有一些有意義的嘗試，但仍需要大量人工干預(yù)，高效的知識融合算法有待進(jìn)一步研究。醫(yī)療領(lǐng)域的知識圖譜也可以考慮采用眾包的方式進(jìn)行知識融合。

1.4 醫(yī)學(xué)知識推理

推理是從已有知識中挖掘出隱含信息，而知識推理更注重知識與方法的選擇與運用，盡量減少人工參與，推出缺失事實，完成問題求解。在醫(yī)學(xué)知識圖譜中，知識推理幫助醫(yī)生完成病患數(shù)據(jù)搜集、疾病診斷與治療，控制醫(yī)療差錯率。然而，即使對于相同的疾病，醫(yī)生也會根據(jù)病人狀況作出不同的診斷，即
醫(yī)學(xué)知識圖譜必須處理大量重復(fù)矛盾的信息，這就增加了構(gòu)建醫(yī)學(xué)推理模型的復(fù)雜性。傳統(tǒng)的知識推理方法有基于描述邏輯（Description Logic， DL）推理，基于規(guī)則推理（Rule-based Reasoning，CBR）與基于案例推理（Case-based Reasoning，CBR）等等。Bousquet C 等人使用基于 DAML+OIL 描述邏輯執(zhí)行術(shù)語推理來改進(jìn)藥物警戒系統(tǒng)中信號檢測；Chen R 等人采用 RBR 方法開發(fā)出糖尿病診斷系統(tǒng)以提供用藥建議；CARE-PARNER 系統(tǒng)則是基于CBR給出診斷結(jié)果與治療方案等等。

傳統(tǒng)的知識推理方法雖在一定程度推動醫(yī)療診斷自動化進(jìn)程，但是也存在學(xué)習(xí)能力不足，數(shù)據(jù)利用率不高，準(zhǔn)確率待提升等明顯缺陷，遠(yuǎn)未達(dá)到實際應(yīng)用的要求。面對日益增長的醫(yī)療數(shù)據(jù)，診斷時不可避免地會出現(xiàn)信息遺漏，診斷時間延長等問題。而人工智能，尤其是人工神經(jīng)網(wǎng)絡(luò)（Artificial Neural Networks，ANNs）擁有從海量數(shù)據(jù)挖掘有用信息的天然優(yōu)勢。 ART-KNN（ART-Kohonen neural network）與 CBR 相結(jié)合可以提高后者在推理故障情況的效率和準(zhǔn)確度。神經(jīng)張量網(wǎng)絡(luò)模型（neural tensor networks）在 FreeBase 等開放本體庫上對未知關(guān)系推理的準(zhǔn)確率可達(dá) 90.0%。Karegowda A G 等人在 Pima 印第安人糖尿病知識庫（PIDD）中使用了遺傳算法（Genetic Algorithm，GA）和反向傳播網(wǎng)絡(luò)（Back Propatation Network，BPN）的混合模型，診斷準(zhǔn)確率提高 7%左右。

與深度學(xué)習(xí)將知識圖譜作為數(shù)據(jù)源不同，基于圖的推理則將知識圖譜視為圖，以實體為節(jié)點，以關(guān)系或?qū)傩詾檫?，利用關(guān)系路徑來找到節(jié)點間的多步路徑，Path Ranking 算法，PTransE就是利用這樣的原理來推斷實體間的語義關(guān)系。圖數(shù)據(jù)庫使知識圖譜能以圖的數(shù)據(jù)結(jié)構(gòu)進(jìn)行存儲，與傳統(tǒng)數(shù)據(jù)庫相比，前者在高維度關(guān)聯(lián)查詢的效率明顯提高。然而圖數(shù)據(jù)庫尚未成熟，暫無法完成太復(fù)雜的知識推理。較為流行的圖數(shù)據(jù)庫有 Neo4j，Titan，OrientDB和 ArangoDB等。王昊奮等人在醫(yī)療質(zhì)量與患者安全輔助監(jiān)控系統(tǒng)中，就將醫(yī)療本體的數(shù)據(jù)存放在 AllegroGraph 圖數(shù)據(jù)庫中。

與通用知識圖譜相類似，醫(yī)學(xué)知識圖譜也還有對跨知識庫知識推理、基于模糊本體的知識推理等問題的研究。

1.5 質(zhì)量評估

數(shù)據(jù)的質(zhì)量直接影響數(shù)據(jù)的運用，質(zhì)量評估是保障數(shù)據(jù)的重要手段，可以量化數(shù)據(jù)質(zhì)量，篩選出置信度高的數(shù)據(jù)。醫(yī)學(xué)診斷對數(shù)據(jù)和醫(yī)學(xué)知識圖譜的可信度和準(zhǔn)確度提出了更高的要求。質(zhì)量評估并不是構(gòu)建醫(yī)療知識圖譜的最后一步，而是貫穿在知識圖譜的整個生命周期：早在 2013 年本體峰會（Ontology Summit2013）就對本體的生命周期的各個階段所要進(jìn)行的評估工作做了相關(guān)的說明。

目前，知識圖譜/本體的評估方法可分為四大類：基于黃金標(biāo)準(zhǔn)的方法，基于本體任務(wù)/應(yīng)用的方法，數(shù)據(jù)驅(qū)動的方法，和基于指標(biāo)的方法。表 1 對比了這幾種本體評估方法。

具體到醫(yī)學(xué)領(lǐng)域，本體評估方法因應(yīng)用場景而異：Clarke 等人使用基于任務(wù)評估方法來分析基因本體的從 2004 至 2012 年的性能；Bright 等使用本體設(shè)計原則和領(lǐng)域?qū)＜覍彶橐庖?作為指標(biāo)來評估本體在抗生素決策支持系統(tǒng)中的效果；Gordon 等通過將電子病歷，診斷案例和臨床實踐等來構(gòu)造“黃金標(biāo)準(zhǔn)”來評估，改進(jìn)傳染疾病本體 BCIDO等。為方便用戶進(jìn)行本體評估和加快本體評估自動化進(jìn)程，本體評估工具封裝了評估方法。不同的工具從不同的視角對本體的不同指標(biāo)進(jìn)行評估。針對評估的側(cè)重點，選擇合適的工具才能對本體作出符合應(yīng)用要求的評估。

比較常用的本體評估工具有：ODEval，OOPS，OntoManager，Core等。除了醫(yī)學(xué)本體，醫(yī)學(xué)知識圖譜還涵蓋其他復(fù)雜多樣的信息，因此，質(zhì)量評估還包括對數(shù)據(jù)質(zhì)量，專家信息，知識庫等方面進(jìn)行評估。

相比通用領(lǐng)域的知識圖譜，醫(yī)學(xué)領(lǐng)域的知識圖譜評估存在以下特殊性：a）鑒于醫(yī)學(xué)的嚴(yán)謹(jǐn)性，評估往往綜合多種方法進(jìn)行多角度的評估，如 Bright 等利用本體設(shè)計原則和領(lǐng)域?qū)＜覍彶閬磉M(jìn)行等級評估； b）往往需設(shè)置等級較高的警告（alerts），如與處方相關(guān)的警報包括抗生素-微生物不匹配警報、用藥過敏警報、非推薦的經(jīng)驗性抗生素治療警報、治療方案-癥狀間不匹配警報等；c）除了從形式方面評價知識圖譜以外，也注重于檢驗知識差距，因為知識的全面性和準(zhǔn)確性將直接影響臨床決策支持的置信度。此外，醫(yī)學(xué)知識圖譜是融合計算機(jī)科學(xué)等眾多學(xué)科的交叉學(xué)科，評價指標(biāo)不能簡單地照搬某個的學(xué)科的指標(biāo)，而是應(yīng)該綜合考慮眾多因素。知識圖譜/本體評估方法如下表所示：

因此，除了借鑒通用知識圖譜質(zhì)量評估方法，Ammenwerth E 等人結(jié)合醫(yī)學(xué)本身的特點，就評價醫(yī)學(xué)知識圖譜時面臨的評價對象的復(fù)雜度，評價指標(biāo)與利益相關(guān)者的關(guān)系，評價動機(jī)三大問題出發(fā)，分別提出解決方案。

不難看出，醫(yī)學(xué)知識圖譜質(zhì)量評估的研究主要集中在方法，工具以及數(shù)據(jù)的研究這三方面。然而，現(xiàn)有的質(zhì)量評估缺乏系統(tǒng)化，鮮有從醫(yī)學(xué)領(lǐng)域特性的角度對知識圖譜進(jìn)行綜合評估，多是借鑒通用的質(zhì)量評估方法從微觀上去評估某一項指標(biāo)，具有分散性，片面性。

2 醫(yī)學(xué)知識圖譜應(yīng)用

隨著人們對健康問題的愈發(fā)重視，醫(yī)療保健費用、需求的增長與優(yōu)質(zhì)醫(yī)療資源不足之間的矛盾亟待解決。對此，由于近幾年人工智能的飛速發(fā)展以及精準(zhǔn)醫(yī)療、智慧醫(yī)療的提出，醫(yī)學(xué)知識圖譜應(yīng)用正受到國內(nèi)外企業(yè)、學(xué)界的廣泛關(guān)注，有望帶來更廉價、高效、精準(zhǔn)的醫(yī)療建議和診斷。本文可以從已有的醫(yī)學(xué)知識圖譜的應(yīng)用中一窺其巨大潛力。

2.1 醫(yī)療信息搜索引擎

傳統(tǒng)的醫(yī)療搜索引擎需要對百億計的醫(yī)療相關(guān)網(wǎng)頁進(jìn)行檢索、存儲、處理，但難以理解用戶的語義查詢。而基于醫(yī)學(xué)知識圖譜的搜索，不僅提供用戶網(wǎng)頁間超鏈接的文檔關(guān)系，還包括不同類型實體間豐富的語義關(guān)系。

知識圖譜對于傳統(tǒng)信息搜索的優(yōu)化主要體現(xiàn)在查詢擴(kuò)展，從知識圖譜中抽取與查詢相關(guān)的若干實體及實體關(guān)系和屬性進(jìn)行擴(kuò)展查詢，以更好的理解用戶的查詢需求。Aronso 等人較早將信息檢索技術(shù)結(jié)合 UMLS 進(jìn)行查詢擴(kuò)展，并應(yīng)用于醫(yī)學(xué)文獻(xiàn)檢索。 Díazgaliano 等人在生物醫(yī)學(xué)信息搜索中加入了醫(yī)學(xué)本體 MeSH來進(jìn)行查詢擴(kuò)展，包含同義、近似同義和密切相關(guān)概念的實體和關(guān)系，改進(jìn)了信息檢索的效果。Huang 等人在醫(yī)學(xué)本體的基礎(chǔ)上，使用 LSA 自動挖掘?qū)嶓w間的語義關(guān)系，如藥物誘導(dǎo)疾病關(guān)系、藥物間相互作用關(guān)系等，對實體關(guān)系、實體-實體的查詢進(jìn)行了擴(kuò)展。中國中醫(yī)科學(xué)院的賈李蓉等于 2002 年開始研制中醫(yī)藥學(xué)語言系統(tǒng)，構(gòu)建了包含12萬多個概念、60余萬術(shù)語以及127余萬語義關(guān)系的中醫(yī)藥知識圖譜。它通過在檢索系統(tǒng)中嵌入“知識卡片”以及一個“知識地圖”展示系統(tǒng)，將中醫(yī)領(lǐng)域概念可視化，用戶可以選擇其中的概念開始構(gòu)造查詢或搜索。

目前，國外典型的醫(yī)療專用搜索引擎有 WebMd8、 OmniMedicalSearch 9 、 Healthline10等。其中 WebMd 和 OmniMedicalSearch 分別屬于全文索引和目錄索引類型的傳統(tǒng) 搜索引擎，Healthline 是一個基于知識庫的醫(yī)學(xué)信息搜索引擎，其知識庫涵蓋超 850，000 項醫(yī)療元數(shù)據(jù)和 50,000 條相互關(guān)聯(lián) 的概念。Google 率先提出將知識圖譜應(yīng)用于搜索，在醫(yī)療搜索應(yīng)用上，當(dāng)用戶搜索疾病或癥狀時，Google 提供超過 400 種健康狀況的數(shù)據(jù)，通過一張信息卡片，給出典型癥狀以及如是否嚴(yán)重、是否具有傳染性、影響哪些年齡段的人等細(xì)節(jié)信息。而國內(nèi)主流醫(yī)療搜索引擎有搜狗名醫(yī)、360良醫(yī)，這兩者都是結(jié)合了元搜索索引方式和知識庫的搜索引擎，聚合權(quán)威的知識、醫(yī)療、學(xué)術(shù)網(wǎng)站，為用戶提供包括維基百科、知乎問答、國際前沿學(xué)術(shù)論文等權(quán)威、真實內(nèi)容。

基于知識圖譜的搜索引擎已成為現(xiàn)今搜索引擎的主要形式，其技術(shù)框架也在不斷改進(jìn)和完善。目前的醫(yī)療搜索引擎主要受限于醫(yī)學(xué)知識圖譜的知識數(shù)量和質(zhì)量，構(gòu)建完備的醫(yī)學(xué)知識圖譜是其關(guān)鍵。

2.2 醫(yī)療問答系統(tǒng)

問答系統(tǒng)也是知識圖譜的典型應(yīng)用場景。目前在基于知識圖譜的問答系統(tǒng)中采用的方法主要包括：基于信息提取的方法，利用問句信息結(jié)合知識庫資源獲取候選答案；基于語義解析的方法，將自然語言問句解析成一種邏輯表達(dá)形式，通過這種結(jié)構(gòu)化表達(dá)從知識庫中尋找答案；基于向量空間建模的方法，使用向量空間描述自然語言問句以及知識圖譜中的實體和關(guān)系，通過機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等方法生成問答模型進(jìn)行回答。

早期的醫(yī)療問答系統(tǒng)的研究主要集中于信息檢索、提取和摘要技術(shù)。知識圖譜概念的提出，致使問答系統(tǒng)研究熱點轉(zhuǎn)移到基于知識圖譜的問答系統(tǒng)研究。Terol等人使用了 UMLS 以及 WordNet 兩種知識庫，設(shè)置了 10 類醫(yī)學(xué)問題類型，利用自然語言處理技術(shù)的應(yīng)用來生成和處理問題的邏輯形式，從知識庫中提取答案。Abacha 等人對比了基于醫(yī)學(xué)本體的醫(yī)療問答系統(tǒng)，結(jié)合醫(yī)學(xué)本體、領(lǐng)域知識，NLP 相關(guān)技術(shù)和語義關(guān)系，實現(xiàn)了一個醫(yī)療自動問答系統(tǒng)。華東理工大學(xué)阮彤、王昊奮等人與上海曙光醫(yī)院合作構(gòu)建了包括疾病庫、證庫、
癥狀庫、中草藥庫和方劑庫的中醫(yī)藥知識圖譜，并基于該知識圖譜進(jìn)行中醫(yī)藥問答和輔助開藥。該系統(tǒng)通過基于知識圖譜的分詞、模板匹配、模板的翻譯執(zhí)行來回答概念、實體、屬性、屬性值的模板組合問題，并將圖譜中存儲的數(shù)據(jù)自動轉(zhuǎn)換成推理引擎適用的推理規(guī)則，再結(jié)合醫(yī)生工作站傳來的病人事實數(shù)據(jù)，輔助醫(yī)生開方。

在醫(yī)療垂直領(lǐng)域的問答系統(tǒng)研究中，受限于現(xiàn)有醫(yī)學(xué)知識圖譜的推理能力，以及醫(yī)學(xué)知識表示的復(fù)雜性，尚未出現(xiàn)重大的突破。而反觀開放領(lǐng)域，對特定領(lǐng)域?qū)I(yè)知識要求不高的情況下，IBM 的 Watson 系統(tǒng)、微軟的小冰都是融合傳統(tǒng)問答系統(tǒng)和知識圖譜的成功案例。

2.3 醫(yī)療決策支持系統(tǒng)

借助醫(yī)療知識圖譜，醫(yī)療決策支持系統(tǒng)可以根據(jù)患者癥狀描述及化驗數(shù)據(jù)，給出智能診斷、治療方案推薦及轉(zhuǎn)診指南，還可以針對醫(yī)生的診療方案進(jìn)行分析、查漏補缺，減少甚至避免誤診。

ángel 等人設(shè)計了一個本體驅(qū)動的，基于邏輯推理和概率統(tǒng)計優(yōu)化的醫(yī)學(xué)鑒別診斷系統(tǒng) ODDIN，系統(tǒng)的知識庫框架包含一個邏輯規(guī)則知識庫和一個醫(yī)學(xué)本體知識庫，在邏輯規(guī)則知識庫中，定義了四種邏輯規(guī)則，而醫(yī)學(xué)本體知識庫則是綜合了多個醫(yī)學(xué)本體資源，支持多種本體表示形式，包括 RDF、RDFS、 OWL 和 SPARQL，診斷方法的核心是基于貝葉斯理論進(jìn)行改進(jìn)。Martnez-Romero 等人[106]設(shè)計的 iOSC3 系統(tǒng)是一個基于本體針對急性心臟病進(jìn)行智能監(jiān)控和診斷的系統(tǒng)，該系統(tǒng)分析患者的狀況并提供最佳治療方案的建議，其知識庫由 OWL 本體和表示專家知識的一組 SWRL 規(guī)則所構(gòu)成。王昊奮、張金康等人通過搜集中文開放鏈接數(shù)據(jù)中的醫(yī)療信息（ICD9、ICD10 等）和主流醫(yī)學(xué)站點中的醫(yī)療知識（39 健康網(wǎng)、尋醫(yī)問藥等）構(gòu)建了醫(yī)療知識圖譜，并將其應(yīng)用于上海林康醫(yī)療信息技術(shù)有限公司的醫(yī)療質(zhì)量與患者安全輔助監(jiān)控系統(tǒng)和處方審核智能系統(tǒng)中，前者基于知識圖譜來進(jìn)行抗生素不合理使用的監(jiān)控、危
急值預(yù)測，后者快速判斷處方為合理、疑似不合理和不規(guī)范處方，從而促進(jìn)用藥的合理性。

將知識圖譜應(yīng)用于醫(yī)療決策是目前的研究熱點。但是，在實際應(yīng)用中，主要存在著兩方面的問題：一是缺少完備的全科醫(yī)學(xué)知識圖譜，二是醫(yī)療決策的可靠性。對于前者，目前基于知識圖譜實際應(yīng)用的醫(yī)療決策系統(tǒng)，主要還是針對于特定疾病類型的決策，無法廣泛應(yīng)用，如 IBM 的 Watson Health 主要面向腫瘤和癌癥的決策支持，基于巨大的知識庫和強(qiáng)大的認(rèn)知計算能力，為臨床醫(yī)師提供快速的、個性化的循證腫瘤治療方案。對于后者，醫(yī)療決策是直接關(guān)系到使用者的身體健康問題，依靠人工智能進(jìn)行醫(yī)療決策對結(jié)果的準(zhǔn)確性和可靠性有更高的要求。現(xiàn)階段，基于知識圖譜的醫(yī)療決策只是扮演著支持和輔助的角色。

3 挑戰(zhàn)及研究展望

知識圖譜是語義網(wǎng)與知識庫的融合與升華。知識圖譜的優(yōu)勢是具備強(qiáng)大的語義處理與開放互聯(lián)能力。對醫(yī)學(xué)領(lǐng)域而言，由于其專業(yè)性、規(guī)范性、術(shù)語有限性等特點，可以從醫(yī)學(xué)詞典、醫(yī)學(xué)標(biāo)準(zhǔn)、電子病歷等來源獲取到高質(zhì)量數(shù)據(jù)；另外在科教行業(yè)中，存在著知識管理、語義檢索、商業(yè)分析、決策支持等需
求，醫(yī)學(xué)知識圖譜的研究能推進(jìn)海量數(shù)據(jù)的智能處理，催生上層智能醫(yī)學(xué)的應(yīng)用。醫(yī)學(xué)知識圖譜是大數(shù)據(jù)與醫(yī)學(xué)的結(jié)合，將成為知識圖譜和大數(shù)據(jù)智能的前沿問題。

1）人工智能

人工智能，尤其是深度學(xué)習(xí)已經(jīng)在計算機(jī)視覺、語音識別、機(jī)器翻譯等領(lǐng)域超越了傳統(tǒng)算法，而其在醫(yī)學(xué)領(lǐng)域中的知識融合與推理等方面的研究潛力還有待挖掘。擁有強(qiáng)大學(xué)習(xí)能力的深度學(xué)習(xí)與有著豐富數(shù)據(jù)儲備的知識庫相結(jié)合，將逐步擴(kuò)展認(rèn) 知能力，為大規(guī)模知識圖譜找到更寬廣的應(yīng)用場景。

2）復(fù)雜多樣的數(shù)據(jù)源（跨語言，開放域）

互聯(lián)網(wǎng)和電子病例帶來了醫(yī)療數(shù)據(jù)的爆炸性增長，然而這些數(shù)據(jù)在語種、主題、存儲等方面都存在較大差異?，F(xiàn)有的研究成果多集中在特定數(shù)據(jù)集上，普遍存在算法準(zhǔn)確率低、限制條件多、擴(kuò)展性差等問題，同時知識復(fù)用、實體消歧等問題也有待進(jìn)一步研究?？缯Z言醫(yī)學(xué)知識圖譜成為當(dāng)前的研究熱點，我國的研究者更應(yīng)發(fā)揮自身在中文信息處理方面的優(yōu)勢。

3）眾包技術(shù)

眾包反饋機(jī)制不僅可以有效提高數(shù)據(jù)質(zhì)量，還能作為質(zhì)量評估的重要補充。眾包平臺與知識庫的有機(jī)結(jié)合，能夠修正機(jī)器無法識別的錯誤，提高知識圖譜的質(zhì)量與性能。39 健康網(wǎng)，尋醫(yī)問藥網(wǎng)的問答區(qū)都有專業(yè)人士在線解答問題；A+醫(yī)百科中的藥物信息由醫(yī)學(xué)研究者共同編輯完成。而另一方面，如何評估和保障提交結(jié)果的質(zhì)量，也開始受到國內(nèi)外學(xué)者的關(guān) 注。

4）可視化

知識圖譜可視化的真正意義在于讓人直觀地了解推理的過程與結(jié)果。而醫(yī)學(xué)知識圖譜可視化站在醫(yī)生或病人的立場，尋求最佳的知識展示方案：病人能夠理解診斷結(jié)果，醫(yī)生能夠利用知識圖譜的動態(tài)推理過程作出合理診斷。

4 結(jié)束語

隨著醫(yī)療信息化的發(fā)展，醫(yī)學(xué)電子數(shù)據(jù)有了一定的積累。構(gòu)建醫(yī)療領(lǐng)域的知識圖譜，可以從海量數(shù)據(jù)中提煉出醫(yī)療知識，并合理高效地對其進(jìn)行管理、共享及應(yīng)用，對當(dāng)今的醫(yī)療行業(yè)有著重要意義，也是很多企業(yè)和研究機(jī)構(gòu)的研究熱點。本文從醫(yī)療知識圖譜的構(gòu)建與應(yīng)用角度，綜述了醫(yī)療知識圖譜的相關(guān)
背景、現(xiàn)有技術(shù)和應(yīng)用，總結(jié)了目前醫(yī)療知識圖譜面臨的主要挑戰(zhàn)，并對其未來的研究方向進(jìn)行了展望。

醫(yī)學(xué)知識圖譜將知識圖譜與醫(yī)學(xué)知識進(jìn)行結(jié)合，定會推進(jìn)醫(yī)學(xué)數(shù)據(jù)的自動化與智能化處理，為醫(yī)療行業(yè)帶來新的發(fā)展契機(jī)。雖然目前對于醫(yī)療知識圖譜的研究工作有了很多很有意義的嘗試，但總的來說還不夠完善和深入，需要更進(jìn)一步的研究。希望本文能夠為醫(yī)療知識圖譜在國內(nèi)的研究提供一些幫助與啟發(fā)。

本站僅提供存儲服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊舉報。

免费视频淫片aa毛片_日韩高清在线亚洲专区vr_日韩大片免费观看视频播放_亚洲欧美国产精品完整版