來源:雷鋒網(wǎng)
10 月 21 日- 22 日,在科技互聯(lián)網(wǎng)行業(yè)一直鮮少出現(xiàn)在頭排的泉城濟南,因為 2017 中國自動化大會暨國際智能制造創(chuàng)新大會的舉辦,出現(xiàn)在了行業(yè)聚光燈下。
鄭南寧院士,西安交通大學人工智能與機器人研究所教授,中國自動化學會理事長,也是此次大會的主席。在 21 日上午近 1 個小時的報告中,鄭院士從人腦和神經(jīng)元的結構與功能講起,詳細剖析了人腦在直覺推理、認知推理、因果模型等各個方面,為深度學習與人工智能帶來的新的靈感與借鑒意義,以及我們?nèi)绾瓮ㄟ^這種啟發(fā),訓練出“健壯的人工智能”。
此次報告可分為四部分:
1.為什么要去實現(xiàn)健壯的人工智能?傳統(tǒng)人工智能的局限性是什么?
2.腦認知和網(wǎng)絡連接之間的關系是什么?腦認知如何與人工智能結合?
3.腦認知具體是如何工作的?
4.以無人駕駛為例,分析人工智能中的認知與推理是如何解決實際問題的。
以下為報告全文:
人工智能滲透到了人類社會各個領域,但目前來看,無論是深度學習還是其它方法,解決的都是單一問題。人類大腦是一個多問題求解的結構,怎么從腦認知和神經(jīng)科學中得到構造健壯的人工智能的啟示,國內(nèi)外都做了非常多有成效的研究。
實現(xiàn)健壯的人工智能的方法
人類面臨的許多問題具有不確定性、脆弱性和開放性。今天人工智能的理論框架,建立在演繹邏輯和語義描述的基礎方法之上,但我們不可能對人類社會的所有問題建模,因為這中間存在著條件問題,我們不可能把一個行為的所有條件都模擬出,這是傳統(tǒng)人工智能的局限性。
這個局限性主要表現(xiàn)在幾個方面:
需要對問題本身抽象出一個精確數(shù)學意義上的解析式的數(shù)學模型(抽象不出,即歸納為不可解問題);
需要為已建立的數(shù)據(jù)模型設計出確定的算法(容易產(chǎn)生諸如 NPC 等問題);
處理的結果無法表現(xiàn)現(xiàn)實世界所固有的不確定性;
圖靈意義下的可計算問題都是可遞歸的(“可遞歸的”都是有序的);
用“度量”來區(qū)分模式,只能處理可向量化的數(shù)據(jù)。
我們要建造一種更加健壯的人工智能,需要腦認知和神經(jīng)科學的啟發(fā)。計算機和人類大腦是對問題求解的物質基礎。在智力和計算能力方面,計算機遠遠超過了人類,但是人類面對的大部分問題都是開放的、動態(tài)的、復雜的,大腦在處理這種問題時表現(xiàn)出的想象和創(chuàng)造,還有對復雜問題的分析和描述,是傳統(tǒng)人工智能的方法所不能企及的,我們只能夠從人類大腦的神經(jīng)網(wǎng)絡結構中去獲得構造新的人工智能的因素。
人類大腦非常奇妙,也正是在這個物質基礎之上,才演繹出人類世界的發(fā)展和對問題求解的各種方法。
右邊這幅圖簡單給出了神經(jīng)元里的結構模型,神經(jīng)元的連接并不是像我們一般理解的物理方式,而是靠突出,突出的過程中有一個間隙,這個間隙產(chǎn)生的反應,構成了大腦中奇妙的演進。人類大腦中的思維或學習都是發(fā)生在突出這個層面上的。實際上在大腦的神經(jīng)網(wǎng)絡連接中,不同空間對應不同功能,不同功能在自身內(nèi)部產(chǎn)生著不同的成本函數(shù)。
人出生之后,大腦會不斷發(fā)展,發(fā)展到一定程度,神經(jīng)元增長到一定數(shù)量,又會遞減,把不需要的神經(jīng)元刪掉。大腦是慢性記憶神經(jīng)元,它需要具有高度的容錯性。
實際上,人出生時大腦是一樣的,如三字經(jīng)所提到的“性相近,習相遠”,6 歲以前,大腦在發(fā)育,到 6 歲左右,從生物學角度上講,這種發(fā)育就完成了,大家的記憶力、智商等都是教育上的反應。教育的基礎就是大腦。所以,大腦不是通過一個統(tǒng)一的沒有分化的神經(jīng)網(wǎng)絡來實現(xiàn)單一的全景優(yōu)化學習的,不同的功能和區(qū)域會生成不同的成本函數(shù)。它是模塊化的,同時具有獨特的系統(tǒng)來支撐注意、記憶、語言等功能。因此,我們可以從腦認知和神經(jīng)科學中去獲得發(fā)展新的人工智能的靈感。
腦認知與網(wǎng)絡連接之間的關系
大腦有 800 億個神經(jīng)元的容量,它主要有三種研究方式:1.結構研究;2.功能研究;3.有效研究。
大腦的結構連接是靜態(tài)的,功能連接和有效研究則具有時空動態(tài)演化的特性。在視覺和聽覺神經(jīng)網(wǎng)絡的區(qū)域空間中,功能連接和有效連接是不一樣的。
有效連接是針對具體任務的,在同一個視覺功能連接空間中,當我們執(zhí)行不同視覺任務時,它所形成的神經(jīng)網(wǎng)絡的有效連接是不一樣的。有效連接描述了神經(jīng)元之間的因果與相互影響關系。從這種結構化的觀點來看,我們構造的神經(jīng)網(wǎng)絡還沒辦法模擬同時具有結構連接、功能連接、有效連接的方式。
功能連接
我們可以通過獲取某一個區(qū)域的活躍程度,或活躍狀態(tài),辨別大腦正在執(zhí)行什么樣的視覺任務。知道它在執(zhí)行什么樣的視覺任務,我們就得到了它有效連接的狀態(tài),也可以求出它的有效連接在時空演化中的特性。如果能夠求出其中的規(guī)律,那顯然我們就可以設計相應的人工智能方式去實現(xiàn)。也就是說,我們可以采用可觸的、動態(tài)的、非線性的關系網(wǎng)絡進行認知任務的輸入。
再對它的科學問題做一個總結,我們要回答出三點:1.大腦是如何實現(xiàn)優(yōu)化的;2.腦網(wǎng)絡的監(jiān)督訓練信號從哪里來;3.在不同的神經(jīng)功能研究區(qū)域中,存在什么樣的有效連接的約束和優(yōu)化。
腦認知和人工智能的結合
前面講了概念,在概念基礎上我們要抽象出科學問題,這樣才能指導我們進一步的研究,找到解決問題的方法。下面我們談一下這個方法怎么和現(xiàn)在的方法結合。
去年,谷歌和 MIT 聯(lián)合發(fā)表了一篇文章,文章的中心思想是怎么利用神經(jīng)科學構造健壯的人工智能系統(tǒng)。我們現(xiàn)在深度學習的基本框架,是通過多層神經(jīng)網(wǎng)絡輸入,根據(jù)誤差來調整連接,這建立在大量數(shù)據(jù)標注的基礎上,通過標記數(shù)據(jù)得到網(wǎng)絡優(yōu)化的成本函數(shù)。
我要強調一點,我們通常講深度學習是從機器學習發(fā)展來的,要構造一個學習機器,關鍵問題是在不同區(qū)域、不同任務下,怎么去構造一個成本函數(shù)。
大腦的認知活動
大腦的認知活動分為三個不同層次:一是哲學,二是形象思維和邏輯思維,三是敏感性。
直覺推理
直覺和敏感都屬于創(chuàng)造性思維,警察在破案中,靠的是多年積累和實踐,形成的直覺判斷。靈感、頓悟與直覺的區(qū)別是,直覺是對當前環(huán)境的反應,它在現(xiàn)在人工智能的發(fā)展中扮演著十分重要的角色。我們需要一種基于直覺的人工智能,也可以將它看成一種基于直覺的推理。
人的直覺反應實際上是尋找全局最優(yōu)解。要構造直覺推理,需要連個關鍵因素:1.需要構造一個成本函數(shù);2.需要給出一個決策結構,而這個決策結構就建立在記憶基礎上。
人在觀察事物時,一定會形成一種與時間相關的影像。如果把直覺推理和數(shù)學歸納演繹推理兩類機制組合,就可以實現(xiàn)基于認知計算或受神經(jīng)科學啟發(fā)的人工智能。
認知推理
我們把認知推理稱為直觀、樸素的物理推理。物理層面的認知推理可以化解時間與空間,追蹤事物的發(fā)展軌跡。認知推理的另一個要素在心理層面,簡而言之就是學習方向受心理狀態(tài)的引導。我們需要把物理層面和心理層面的推理嵌入到推理的人工智能系統(tǒng)中。
因果模型
在直覺和認知推理中,我們還需要構造一種模型,其中因果模型是基礎。認知計算框架下的因果模型既要滿足物理因果關系所產(chǎn)生的物理約束,同時又要讓機器理解當前認知任務下的因果關系。
構造一個具體的人工智能系統(tǒng)
直覺推理、認知推理和因果模型是構建健壯的人工智能必須考慮的基本因素。那么如何來構造一個具體的系統(tǒng)?構造機器人需要三個基本要素:1.對環(huán)境中的所有對象進行特征識別,并且進行長期記憶;2.理出對象間的關系,并對它們相互間的作用進行描述;3.基于想象力的行為模型,人在進行具體行動之前,會想象其帶來的后果,但機器就需要分析物體之間的各種關系。
這三種要素是讓機器像人一樣理解物理世界的基礎。具有想象力的人工智能,就需要:
行動之前預想到結果;
構造一個位置模型 ;
給出環(huán)境模型,提取有用信息;
規(guī)劃想象行為,最大化任務效果。
認知如何解決實際問題
我們在 2000 年初就開始做無人駕駛,有人說要把無人駕駛汽車和城市真實場景的車融合,我們還面臨非常艱難的挑戰(zhàn),有相當長的路要走。車聯(lián)網(wǎng),V2X,V2V,都一樣。在這種局部、動態(tài)的場景中,我們怎樣讓自動駕駛跟環(huán)境融合,確實是一個很大的問題。
無人駕駛的挑戰(zhàn)存在于:
必須準確感知周圍環(huán)境,在所有條件下安全行駛;
自動駕駛必須能夠抽象,要完成一種交互情境中的記憶計算;
自動駕駛必須能夠理解預行為。
現(xiàn)在絕大多數(shù)自動駕駛采取了場景感知與定位,決策規(guī)劃與控制,這是一種簡單的 ADAS 形式,但我們要如何通過新的方法來解決這個問題?
場景感知與情境計算
場景是某個交互場合在特定時間和空間中的具體情境和影象,它可以定義為一種實體。情境是指這種實體隨著時間和空間變化而產(chǎn)生的關聯(lián)。情境計算是對場景各個關聯(lián)的對象做解釋,可以定義為一個行為相關體。
這里的問題就是,第一,要讓自動駕駛汽車像人一樣理解和記憶,就要具有記憶推理和經(jīng)驗分析的技術;第二就,進化發(fā)展的自動駕駛,其學習過程要像人類一樣熟能生巧。
人類視覺關注的基本機制是選擇、組織、整合、編碼。
人對變化是非常敏感的,可以提取交通場景中的顯著性變化。比如你在開車時,如果右前方突然來了一個騎自行車的人,你的注意力會轉移到騎車人的身上。在自動駕駛汽車上,我們要構造一個選擇性的注意機制網(wǎng)絡,對數(shù)種圖像進行理解,并根據(jù)內(nèi)部狀態(tài)的表示,忽略不相關的對象,選擇下一步要采取的動作。
把場景感知和情景認知結合起來,需要我們構建一個模型,融合先進知識概念,實現(xiàn)記憶學習。
場景感知是將通過各種不同屬性的傳感器獲得的不同數(shù)據(jù),提供到深度學習中,之后再根據(jù)長短期記憶和定位網(wǎng)絡,進行情境計算。在這種框架中,我們可以把場景感知和情境計算融合在一起。
一個高效的情景計算要運用實際情境的因果關聯(lián),在最前端的數(shù)據(jù)層面進行有效計算,這就需要把數(shù)據(jù)驅動變成事件驅動。人在開車時,根據(jù)情境判斷前方可不可以行駛,這就是把數(shù)據(jù)驅動變成事件驅動。
怎么構造事件驅動?就是把可見光和激光點云數(shù)據(jù)融合在一起,把三維數(shù)據(jù)轉化成二維圖像數(shù)據(jù)。點云數(shù)據(jù)給出了每一個生物體的明確的點,二維圖像沒有深度信息,它是圖像的幾何形狀變化。把人的數(shù)據(jù)和激光點云的數(shù)據(jù)融合,用數(shù)據(jù)驅動轉變?yōu)槭录寗?,就得出了可行駛?shù)據(jù)和不可行駛數(shù)據(jù)大的劃分。
人開車的時候,他在注意什么,我們就來構建一個類似的選擇性基礎,把同樣的場景輸入到一個深度學習網(wǎng)絡中,通過深度學習網(wǎng)絡提取特征和人的注意力。