2004-11-26 12:21
關于HNC理論
HNC理論是"Hierarchical Network of Concepts(概念層次網絡)"的簡稱,是關于自然語言理解處理的一個理論體系。它以概念化、層次化、網絡化的語義表達為基礎,所以稱它為概念層次網絡理論。HNC理論把人腦認知結構分為局部和全局兩類聯(lián)想脈絡,認為對聯(lián)想脈絡的表達是語言深層(即語言的語義層面)的根本問題。
HNC理論的中心目標是建立自然語言的表述和處理模式,使計算機能夠模擬人腦的語言感知功能。該理論使自然語言理解獲得了突破性的進展,它所蘊涵的精深豐富的思想對人工智能、語言學、計算機科學和認知科學等都具有重要的理論和應用價值,對中文信息處理和漢語研究尤其具有實際意義。
HNC理論完全擺脫了我國現(xiàn)有的這套語法學的束縛,而從語言的深層入手,以語義表達為基礎,為漢語理解開辟了一條新路。HNC理論提出了可供工程實現(xiàn)的完整的自然語言理解的理論框架,它是一個面向整個自然語言理解的強大而完備的語義描述體系,包括語句處理、句群處理、篇章處理、短時記憶向長時記憶擴展處理、文本自動學習處理。HNC理論的出發(fā)點就是運用兩類聯(lián)想脈絡來"幫助"計算機理解自然語言。自然語言的詞匯是用來表達概念的,因此,HNC建立的詞匯層面的局部聯(lián)想脈絡體現(xiàn)為一個概念表達體系。概念分為抽象概念與具體概念。HNC理論的概念表達體系側重于抽象概念的表達。對具體概念采取掛靠近似表達方法。HNC理論認為應該從多元性表現(xiàn)和內涵兩個方面來描述概念。
它創(chuàng)立了五元組用來表達抽象概念的多元性表現(xiàn),對抽象概念的內涵采用網絡層次符號來表達。其網絡層次符號包含三大語義網絡:基元概念語義網絡、基本概念語義網絡和邏輯概念語義網絡。HNC的五元組符號和三大語義網絡的層次符號組合起來就可完成對抽象概念的完整表達,從而為計算機理解自然語言的語義提供了有力的手段。
自然語言理解技術大致可分為機器翻譯、語義理解及人機會話技術幾個方面。其中機器翻譯(machine translation),又稱機譯(MT),是利用計算機把一種自然語言轉變成另一種自然語言的過程。智能
搜索引擎在這一領域的研究將使得用戶可以使用母語搜索非母語的網頁,并以母語瀏覽搜索結果。語義理解通過將語言學的研究成果和計算機技術結合在一起,實現(xiàn)了對詞語在語義層次上的理解。人機會話技術可以為計算機提供下一代的人機交互接口,實現(xiàn)從文字接口、圖形接口到自然語言接口的革命,同時在家用電器的人性化設計方面有著廣泛的應用前景,其技術內涵主要包括語音識別、語音合成兩個核心部分。
在語義理解的整個過程中,智能分詞技術是最初的一個環(huán)節(jié),它將組成語句的核心詞提煉出來供語義分析模塊使用。在分詞的過程中,如何能夠恰當?shù)靥峁┳銐虻脑~來供分析程序處理,并且過濾掉冗余的信息,這是后期語義分析的質量和速度的重要前提。尤里卡的智能分詞避免了傳統(tǒng)分詞技術在拆分時產生的歧義組合。從而為語義理解的處理提供了良好的原始材料。同時,在分詞的過程中,知識庫當中的同義詞會被逐個匹配并同時提交給語義理解模塊使用,這樣處理過的句子,不僅提供了原始的句型,還同時搭載了語句的概念部分。
第二部分 在
搜索技術中的應用
眾所周知,隨著互聯(lián)網的迅速發(fā)展和廣泛普及而導致網上信息爆炸性增長。如何在龐大的互聯(lián)網上獲得有價值的信息已成為網民日益關注的問題。這種以一定的策略在互聯(lián)網中搜集、發(fā)現(xiàn)信息,對信息進行理解、提取、組織和處理,并為用戶提供檢索服務,從而起到信息導航的目的的搜索技術的出現(xiàn)為網民快速找到所需信息帶來了福音。
但是,2001年,Roper Starch的調查指出,36%的互聯(lián)網用戶一個星期花了超過2個小時時間在網上搜索;71%的用戶在使用
搜索引擎的時候遇到過麻煩;平均搜索12分鐘以后發(fā)現(xiàn)搜索受挫;搜索受挫中46%都是因為鏈接錯誤;絕大部分(86%)的互聯(lián)網用戶感到應當出現(xiàn)更有效的、準確的信息搜索技術。另一項由Keen所做的調查顯示,人們平均每天有四個問題需要從外界獲取答案;其中31%的人使用搜索引擎尋找答案;平均每周花費8.75個小時找尋答案;53.3%時間花在從旁人那里獲得答案,29%的時間花在親戚朋友身上,24.3%的是時間花在銷售商那里;網上查找答案的,半數(shù)以上都不成功;他們每周將花費14.5美元以上,以獲取正確的信息。
從這些調查數(shù)據(jù)中不難看出,盡管搜索服務提供者在研發(fā)搜索技術方面已經花費了大量的時間和精力,但是目前的搜索引擎仍然存在不少的局限性,比如信息丟失、返回信息太多、信息無關,這使得網民對于現(xiàn)有的
搜索技術仍然不滿,期盼更完美的搜索技術的出現(xiàn)。
由于自然語言理解技術的三方面功能,即機器翻譯、語義理解及人機會話技術能夠賦予
搜索技術更具人性化、方便易用的特點。因此,近年來在搜索界得到了廣泛的應用。無論是國內外的搜索引擎,都可以尋覓到語義理解、機器翻譯的蹤跡。
目前在搜索引擎方面主要應用的自然語言理解技術是機器翻譯與語義理解技術。應用了這些技術的搜索引擎我們稱之為智能
搜索引擎。由于它將信息檢索從目前基于關鍵詞層面提高到基于知識(或概念)層面,對知識有一定的理解與處理能力,因而具有信息服務的智能化、人性化特征。它允許網民采用自然語言進行信息的檢索,為他們提供更方便、更確切的搜索服務。
與傳統(tǒng)的目錄查詢、關鍵詞查詢模式相比,自然語言查詢的優(yōu)勢體現(xiàn)在:一是使網絡交流更加人性化;二是使信息查詢變得更加方便、快速和準確。現(xiàn)在,已經有越來越多的
搜索引擎宣布支持自然語言搜索特性。比如國外的搜索引擎Google,,AskJeeves;國內的搜索引擎網易、尤里卡、問一問、21世紀互聯(lián)、孫悟空、悠游等。在這里我們將重點介紹應用語義理解技術的中文智能搜索引擎。
首先以尤里卡搜索引擎為例簡要說明一下這種智能
搜索的過程。
實現(xiàn)智能搜索的過程主要分三部分:語義理解、知識管理和知識檢索。其中,知識庫是實現(xiàn)智能
搜索的基礎和核心。知識庫提供的是語義理解中最終將要提供給用戶的結果,同互聯(lián)網的狀況相同,人類的知識結構和容量都在飛速膨脹,所以知識庫也需要有良好的適應能力。在語義理解的整個過程中,智能分詞技術是最初的一個環(huán)節(jié),它將組成語句的核心詞提煉出來供語義分析模塊使用。在分詞的過程中,如何能夠恰當?shù)靥峁┳銐虻脑~來供分析程序處理,并且過濾掉冗余的信息,這是后期語義分析的質量和速度的重要前提。
加入了知識庫處理技術的智能分詞能夠避免了傳統(tǒng)分詞技術在拆分時產生的歧義組合。從而為語義理解的處理提供了良好的原始材料。知識檢索可以利用語義分析的結果,對知識庫進行概念級的檢索,對用戶提出問題給出準確度最高、相關度最強的檢索結果。比如:"我想在北京找工作?"。首先進行語義理解,在知識庫中"找工作"屬于求知招聘的范疇,所以分析出用戶想查詢"在北京求職"。然后利用"在北京求職"這個概念查詢知識庫,得出答案。
下面我們再來看看各家宣稱應用了自然語言理解的搜索技術有哪些特點。
問一問(www.weniwen.com)自然語言檢索
問一問是由聞易網科技有限公司(Weniwen Technologies, Inc.)開發(fā)的智能
搜索引擎。它允許用戶以自然的、整句的方式、以漢語或英語發(fā)出查詢請求。易于快速地、以比較經濟的方式擴展到不同的語言。 并可以同時從兩種語言中識別出詞匯。使用自然語言處理(NLP)技術,與傳統(tǒng)的、基于關鍵詞匹配的搜索技術相比,NLP技術可使問一問"理解"請求中的上下文和含義。通過使用NLP技術,問一問可以更準確地檢索出適當?shù)男畔?。尤其適用于旅游/休閑、金融以及消費品工業(yè)的、正在尋求可增強消費者通過Internet來訪問其信息或進行自動交易的途徑的大企業(yè)或門戶。