我們好像剛剛經(jīng)歷了pc到移動的互聯(lián)網(wǎng)革命,或許你還沒有完全適應,但現(xiàn)在機器人技術已經(jīng)是發(fā)展趨勢。
不管你信不信,下一個主要的革命將是機器人的崛起?;蛟S用不了多久,我們會像離不開手機一樣離不開機器人。
考慮到機器人的發(fā)展速度,我們有必要理解它們的工作原理,就像我們理解電腦和手機一樣。
現(xiàn)在,盡管機器人技術是一個龐大的學科,但我們今天主要討論機器人的一個特殊方面——感知。
在我們解釋機器人感知的各種方式之前,讓我們先看看人類是如何感知世界的。
機器人和人類友好發(fā)展
人類感知世界
人類通過視覺、嗅覺、聽覺、味覺和觸覺這五種感官感知世界。雖然所有的感官都很重要,但主要的感官是視覺、聽覺和觸覺。
如果這些感官中少了一種,我們的生活將變得相當困難。不過大多數(shù)人直到失去后,才知道這三種感覺的價值。
我們想象一下,即使是簡單的事情,比如走在路上,聽到司機的喇叭聲,或者有人為了阻止你觸摸危險物體而大喊大叫……
如果沒有你關鍵感官的功能和控制,你是很難做出反應解除麻煩的。
我們還必須認識到,感知不僅是每個感官的感知,而且是它們之間的無縫集成和處理,以連貫的方式感知來自你感官的信息輸入。
我們的大腦和脊髓主要控制感官的信息整合。讓我們以視覺為例,來理解感知的整合和處理。
我們知道,當一個人看一個物體時,這個物體會在視網(wǎng)膜上形成一個倒象。這張由光形成的圖像隨后被視網(wǎng)膜轉換成電信號,并通過視神經(jīng)發(fā)送到大腦。
這個時候,物體再次倒換,從而使圖像直立。這有助于我們查看圖像,并為我們提供了物體本質(zhì)的細節(jié),包括它的尺寸和與我們的距離。
大自然的設計是原始的并且非常輝煌;要在機器人身上復制如此規(guī)模的設計,需要全新的數(shù)學嚴謹性和紀律性。
眼球輸入信息
機器人圖像處理(視覺)
正如圖像是在我們的眼球內(nèi)形成的,機器人也可以在相機的幫助下創(chuàng)建數(shù)字圖像。
數(shù)字圖像可以定義為二維圖像的表達形式,即有限的數(shù)字值集合,稱為圖像元素或像素。將圖像數(shù)字轉化為像素意味著圖像是實際圖像的近似。
像素值包含許多信息,如灰度、顏色、高度、不透明度等等。在計算機科學中,數(shù)字圖像處理是利用計算機算法對數(shù)字圖像進行圖像處理。
數(shù)字圖像處理是作為數(shù)字信號處理的一個子范疇或領域,它與模擬圖像處理相比具有許多優(yōu)勢。
它允許更廣泛的算法應用于輸入數(shù)據(jù),并可以幫助您避免在處理過程中產(chǎn)生的干擾和信號失真等問題。
說了十幾遍蘋果siri還沒有識別怪羅科普的語音
自然語言處理(聽覺)
我們?nèi)祟惱斫庹Z言的方式是非常直觀的,但計算機在處理語言時采用了一種更合乎邏輯的方法。
自然語言處理(NLP)是計算機科學、信息工程和人工智能的一個子領域,研究計算機和人類語言之間的語言差異。
自然語言處理有兩種形式:基于規(guī)則的NLP和統(tǒng)計的NLP。
在NLP的早期,大多數(shù)處理都是基于手寫代碼。后來,NLP轉向了更多的使用統(tǒng)計方法的機器學習范式。
機器人做家務
許多不同種類的機器學習算法已被應用于自然語言處理中。這些算法采用從輸入數(shù)據(jù)生成的大量“特性”。(機器學習相關,搜索下我們之前文章了解)
一些早期使用的算法,如決策樹,產(chǎn)生了硬“if-then”規(guī)則系統(tǒng),類似于當時常見的手寫規(guī)則系統(tǒng)。
然而,越來越多的研究集中在統(tǒng)計模型上,這些模型基于為每個輸入特性附加實值權重來做出軟性概率決策。
這種模型的優(yōu)點是能夠表達許多不同的可能答案的相對確定性,而不是只有一個,因此,當將這種模型作為一個更大的系統(tǒng)組件包含進來時,就可以產(chǎn)生更可靠的結果。
好了,了解了這些之后,現(xiàn)在你應該可以明白讓機器人理解它周圍的世界需要付出多大的努力!