近日,MIT-IBM 沃森人工智能實驗室的研究人員在計算機視覺識別算法相關研究中取得突破,他們使用的訓練視頻識別模型的新技術,不僅比目前最先進的方法快三倍,還成功縮小了最先進的計算機視覺模型,這就意味著,人們已經(jīng)可以在處理能力非常有限的手機或其他設備上運行視頻識別模型。
深度學習(deeplearning)是機器學習的一個分支,它幫助電腦在某些定義明確的視覺任務上超越人類。而視覺識別是深度學習的最廣泛應用之一。計算機視覺算法目前可以分析醫(yī)學圖像、賦能自動駕駛汽車和人臉識別。但隨著這項技術擴展到識別視頻和真實世界的事物時,訓練模型就變得越來越大,計算量也越來越大。
據(jù)估計,訓練一個視頻識別模型比訓練一個圖像分類模型需要多 50 倍的數(shù)據(jù)和 8 倍的處理能力。隨著對訓練深度學習模型處理能力的需求呈指數(shù)級增長,以及人們對人工智能的巨大碳排放的擔憂與日俱增,這已經(jīng)成為了重要的問題。另外,在低功耗移動設備上運行大型視頻識別模型仍然是一個挑戰(zhàn),許多人工智能應用程序正朝著這個方向發(fā)展。
麻省理工學院電子工程與計算機科學系(EECS)助理教授韓松所帶領的團隊,正通過設計更高效的深度學習模型來解決這個問題。
(來源:麻省理工科技評論)
他們在一篇被 ICCV2019 接收的論文中概述了一種縮小視頻識別模型的方法,可加快智能手機和其他移動設備上的視覺識別模型訓練,并提高運行時的性能,成功將最先進模型中的 1.5 億個參數(shù)減少到 2500 萬個,模型縮小到原來的六分之一。
基礎的圖像和視頻識別模型是神經(jīng)網(wǎng)絡,它大致模擬了大腦處理信息的方式。無論是數(shù)碼照片還是視頻圖像序列,神經(jīng)網(wǎng)絡都會在像素中尋找模式,并為它們看到的東西構建一個抽象的表示。通過足夠多的例子,神經(jīng)網(wǎng)絡“學習”識別人、物體以及它們之間的關系。通常,視頻識別算法會將視頻分割成圖像幀,并在每個幀上運行識別算法。然后,它通過觀察對象在隨后每幀中的變化,將視頻中顯示的動作拼接在一起。該方法要求算法“記住”它在每一幀中看到的內(nèi)容,以及它看到這些內(nèi)容的順序。這很低效,而且沒有必要。
在新的方法中,算法提取每一幀對象的基本草圖,并將它們疊加起來,算法可以通過觀察草圖中物體在空間中的移動來獲得時間流逝的印記,而不用記住什么時候發(fā)生了什么。該模型在識別某些視頻數(shù)據(jù)集中的行為方面,表現(xiàn)優(yōu)于其他模型。
研究人員發(fā)現(xiàn),這種訓練視頻識別模型新方法的速度是現(xiàn)有方法的三倍。在最近的一次演示中,它還能通過耗電很小的一臺小型電腦和一臺照相機來快速識別手勢。