免费视频淫片aa毛片_日韩高清在线亚洲专区vr_日韩大片免费观看视频播放_亚洲欧美国产精品完整版

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
曠視首席孫劍:視覺計算前沿進(jìn)展

5月8日上午,曠視首席科學(xué)家、西交大人工智能學(xué)院院長孫劍博士在線做了一場“視覺計算的前沿進(jìn)展”的報告,報告是由「信息技術(shù)新工科產(chǎn)學(xué)研聯(lián)盟」主辦的人工智能教育線上公開課。

孫劍博士在報告中將當(dāng)前使用卷積神經(jīng)網(wǎng)絡(luò)的計算機視覺分兩個方面進(jìn)行了探究:
1、卷積神經(jīng)網(wǎng)絡(luò),核心可以歸納為:網(wǎng)絡(luò)的深度、網(wǎng)絡(luò)的卷積操作、網(wǎng)絡(luò)的寬度和網(wǎng)絡(luò)的大小。
2、計算機視覺,核心問題可以歸納為:分類、檢測、分割以及序列。
孫劍表示,針對這些問題,研究員們已經(jīng)做出了非常多的努力,也有了非常多的進(jìn)步,但是長尾分布、自監(jiān)督學(xué)習(xí)、遮擋等計算機視覺中的關(guān)鍵問題還沒有解決。
下面我們對孫劍博士報告的部分內(nèi)容作以介紹。

1

卷積神經(jīng)網(wǎng)絡(luò)

計算機視覺包含很多任務(wù),其中一條主線是如何理解一張圖片,也就是圖像的表示問題。從1978年的 2.5D Sketch一直到中間的點特征、局部特征再到今天的深度卷積神經(jīng)網(wǎng)絡(luò),圖像表示問題已經(jīng)有了幾十年的研究。
當(dāng)前最主流的方法是深度卷積神經(jīng)網(wǎng)絡(luò),即輸入一張圖片,經(jīng)過中間函數(shù)的作用,輸出一個類別。但卷積神經(jīng)網(wǎng)絡(luò)到底學(xué)到了什么呢?孫劍提到,學(xué)到的東西可以分為低級表示和高級表示兩個維度,低級表示例如線段、邊緣、紋理等,高級特征例如如狗、耳朵等。
卷積神經(jīng)網(wǎng)絡(luò)開始的思想很早之前就已經(jīng)存在,早在80年代,日本科學(xué)家提出神經(jīng)認(rèn)知機的概念,可以算作是卷積網(wǎng)絡(luò)最初的實現(xiàn)原型。90年代Yann LeCun 把這種方法發(fā)揚光大,從而學(xué)界開始卷積神經(jīng)網(wǎng)絡(luò)的研究。
卷積神經(jīng)網(wǎng)絡(luò)的核心問題可以歸納為上面幾個:大小、卷積、深度、寬度。其中卷積最核心,作為一種算子,其具有空間不變性、權(quán)重共享等特點,一般3*3的卷積最為常見。一個3*3的卷積如果再加上通道數(shù)的卷積計算,就能提取特征信息。后來出現(xiàn)的1*1的卷積也非常有效,其能夠有效的降低計算復(fù)雜度,融合它的通道信息。
隨后,卷積使用產(chǎn)生了分組思想,即把整體的通道分成不同的組從而完成計算,在降低復(fù)雜度的同時,也更加高效。在往下發(fā)展,Depthwise概念出現(xiàn),這個概念假設(shè)卷積中的特征為3D立方體,第一步先對每一層進(jìn)行獨立卷積,第二步是把上一步的卷積結(jié)果用一個點卷積進(jìn)行綜合。
在報告中,孫劍提到,在2018年的時候,其研究團(tuán)隊提出的ShuffleNetV1就結(jié)合了分組和點卷積的思想,這個網(wǎng)絡(luò)第二步采用Shuffle操作,從而保證種通道信息可以交換,隨后的ShuffleNet v2改善了V1的第一步,強調(diào)通道切分和局部卷積,也讓模型更加高效。
最新的卷積設(shè)計思想是動態(tài)卷積計算,區(qū)別于每一層卷積根據(jù)前面的輸入不變的思想,能夠根據(jù)輸入不同動態(tài)生成卷積參數(shù)。例如曠視的動態(tài) Channel-wise Mixture 就采用了此思想,增強了模型的擬合能力。
卷積神經(jīng)網(wǎng)絡(luò)第二個核心是“深度”,其有兩個障礙:1.深度神經(jīng)網(wǎng)絡(luò)如果過深則無法訓(xùn)練;2.實驗結(jié)果難以復(fù)現(xiàn)。這兩個障礙也是神經(jīng)網(wǎng)絡(luò)在歷史上幾起幾落的重要因素,在2012年以前,神經(jīng)網(wǎng)絡(luò)的深度是有欠缺的。
2012年Hinton和他的學(xué)生AlexKrizhevsky 做出了有8層的 AlexNet。兩年之后,19層的VGG網(wǎng)絡(luò)和22層的GoogleNet出現(xiàn),從此科學(xué)家開始攻堅“深度”。2015年孫劍領(lǐng)導(dǎo)微軟團(tuán)隊第一次做出了超過100層的RestNet。
網(wǎng)絡(luò)越深,能力越強,如上圖所示,2015年,152層的RestNet在ImageNet圖像分類任務(wù)中,誤差精度超越人類。
為什么是152層?孫劍提到當(dāng)時內(nèi)存約束導(dǎo)致最多可以訓(xùn)練一個152層的網(wǎng)絡(luò),另外,根據(jù)Jeffy Feldman的“100步極限”理論,100多層似乎是最優(yōu)數(shù)目。(100步極限理論:大腦高級決策時間在0.5秒、大腦皮層神經(jīng)元的電脈沖間隔5ms、大腦計算不會超過100個連續(xù)步驟)
ResNet的設(shè)計思想在于殘差學(xué)習(xí)的方式,即根據(jù)輸入將層表示為學(xué)習(xí)殘差函數(shù)。實驗表明,殘差網(wǎng)絡(luò)更容易優(yōu)化,并且能夠通過增加相當(dāng)?shù)纳疃葋硖岣邷?zhǔn)確率。ResNet解決了增加深度帶來的副作用(退化問題),這樣能夠通過單純地增加網(wǎng)絡(luò)深度,來提高網(wǎng)絡(luò)性能。在2018年ResNet也被用在了AlphaGo Zero訓(xùn)練,目的在于把棋盤看成圖像,預(yù)測落子步驟。
神經(jīng)網(wǎng)絡(luò)的寬度和表示能力強相關(guān),統(tǒng)一逼近定理就是這個理論研究方向(統(tǒng)一逼近定理:一個足夠大的兩層神經(jīng)網(wǎng)絡(luò)可以逼近任意有界連續(xù)函數(shù))。但是這個定理只告訴了能夠逼近,但是沒有說明怎樣逼近。
最近的一些研究把傳統(tǒng)機器學(xué)習(xí)和深度學(xué)習(xí)進(jìn)行了對比,傳統(tǒng)機器學(xué)習(xí)當(dāng)參數(shù)大到一定程度就會從欠擬合走向過擬合。但是用深度學(xué)習(xí)方法,如果過參數(shù)化,往往會有較低的訓(xùn)練錯誤和測試錯誤,也就是說模型實現(xiàn)了較高的泛化能力。
但是,如果網(wǎng)絡(luò)太寬會影響實用效果,一些研究就想著怎么進(jìn)行通道裁剪。例如元裁剪方法訓(xùn)練神經(jīng)網(wǎng)絡(luò)來裁剪網(wǎng)絡(luò)、最小二乘實現(xiàn)權(quán)重重建、LASSO回歸實現(xiàn)通道裁剪等等。
最后,網(wǎng)絡(luò)的大小,也就是特征圖的大小也是有研究方向。研究發(fā)現(xiàn)如果動態(tài)改變特征數(shù)大小,會產(chǎn)生非常有趣或者更好的一些效果,例如可以模擬數(shù)據(jù)增強效果或者說能夠搜索到更好的網(wǎng)絡(luò)構(gòu)架。
上面四個因素,深度、卷積、寬度、大小分別是單維度研究。目前神經(jīng)網(wǎng)絡(luò)構(gòu)架搜索研究方向,正在試著將這幾個維度同時聯(lián)合優(yōu)化。其核心是完成兩個迭代的過程:構(gòu)架搜索和權(quán)重訓(xùn)練。
在報告中,孫劍介紹到,他的團(tuán)隊目前正在做一個叫做超網(wǎng)絡(luò)的方法:第一步訓(xùn)練超網(wǎng)絡(luò),第二步搜索子網(wǎng)絡(luò)直接繼承網(wǎng)絡(luò)的權(quán)重,如此便能快速找到更好的子網(wǎng)絡(luò)。

2

計算機視覺
計算機視覺始于60年代,Larry Robert最早涉及,他的博士論文就是計算機視覺領(lǐng)域的第一篇,當(dāng)時研究的核心內(nèi)容是如何用計算機分清一張圖物體和背景。
近幾年的發(fā)展也非常迅速,從計算機視覺學(xué)術(shù)年會CPVR來看,其論文提交數(shù)目不斷遞增,2019年已經(jīng)超過了5000篇論文。這也表示了計算機視覺方向的火熱。
計算機視覺核心問題大概有四個,分別是:分類、檢測、分割、序列。其中分類問題最著名的當(dāng)屬ImageNet,自2010年以來,每年度ImageNet大規(guī)模視覺識別挑戰(zhàn)賽(ILSVRC),研究團(tuán)隊在給定的數(shù)據(jù)集上評估其算法,并在幾項視覺識別任務(wù)中爭奪更高的準(zhǔn)確性?;谟嬎銠C視覺-分類,也誕生了許多應(yīng)用,例如人臉識別、機器人、醫(yī)療影像等等。

圖注:基本的檢測框架:1.輸入圖像;2.通過骨干網(wǎng)絡(luò)得到候選框;3.候選框得出局部區(qū)域;4.通過檢測頭;5、得到結(jié)果。
如果說分類問題涉及一張圖片里面大概包含什么,那么檢測問題不光知道包含什么,還要知道這個物體在哪里。傳統(tǒng)方法也能做檢測,但是2013年,在伯克利做博士后的Ross Girshick基于深度學(xué)習(xí)發(fā)明了R-CNN網(wǎng)絡(luò)效果吊打傳統(tǒng)模型,至此之后,檢測問題向深度學(xué)習(xí)找方向。
R-CNN的核心思想是:用傳統(tǒng)方法從圖像中抽取候選區(qū)域,然后將候選區(qū)域裁成一個一個的方框,隨后將方框饋送到網(wǎng)絡(luò)中進(jìn)行分類。但是這種裁剪方法可能需要在圖像中裁剪1000~2000個方框,會對計算量有非常多的要求。 
于是2014年,SPP-Net出現(xiàn),直接從特征圖裁剪,區(qū)別于R-CNN在圖像中裁剪,極大節(jié)約了計算量。
2015年 Faster R-CNN出現(xiàn),打破了傳統(tǒng)的候選框計算方式,直接設(shè)計神經(jīng)網(wǎng)絡(luò)抽取候選框。這也意味著第一次物體檢測問題能夠全部用深度學(xué)習(xí)方法實現(xiàn)。
隨后,2017年ICCV的最佳論文提出Mask R-CNN 進(jìn)一步擴展深度學(xué)習(xí)方法,不但能夠輸出框,還能夠輸出物體的形狀。
后來的RetinaNet和YOLO V3方法更加高效,一步就能夠得到結(jié)果;Dense Box和FCOS能將整個方式更加簡化。
然后,孫劍介紹了介紹了一個名為MegDet的物體檢測器,表示它第一次從框架上支持超大mini-Batch訓(xùn)練,多機訓(xùn)練可以加速16倍,并且精度更高。還介紹了 objects365 V2 數(shù)據(jù)庫,其包含365種常見物體,2百萬張圖像,2.8千萬個人工標(biāo)注框。 
除此之外,孫劍提到物體檢測中的遮擋問題是計算機視覺中非常前沿的研究,如果一張照片中有兩個人,一個人被另一個人部分遮擋,雖然人類的眼睛非常容易分辨出,但是因為包含推理,所以對于計算機來說是個非常困難的問題。
區(qū)別于單預(yù)測方法,去年他們的“一個候選框多個預(yù)測結(jié)果”的方法已經(jīng)在嘗試解決遮擋問題了。
在計算機視覺中雖然已經(jīng)取得了非常多的進(jìn)步,但是還有一些關(guān)鍵問題沒有解決,例如長尾分布就是機器學(xué)習(xí)中的核心難題,也即對于不經(jīng)常發(fā)生或者不易常見的數(shù)據(jù)很難有充足的訓(xùn)練樣板,以至于機器學(xué)習(xí)方法就很難訓(xùn)練好模型。
如何不通過大量有監(jiān)督的訓(xùn)練標(biāo)注方法就能達(dá)到很好的學(xué)習(xí)效果(自監(jiān)督)?如何把一個視頻序列中的同一個物體很好的關(guān)聯(lián)起來?顯然,今天深度學(xué)習(xí)的方法并不能很好的測試和解決這些問題。


本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊舉報。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
專訪孫劍:計算機視覺研究,如何改變了我們的生活?
真的,關(guān)于深度學(xué)習(xí)與計算機視覺,看這一篇就夠了 | 硬創(chuàng)公開課
【重磅】Facebook開源機器視覺工具,從像素點中發(fā)現(xiàn)規(guī)律
每日科技名詞|卷積神經(jīng)網(wǎng)絡(luò)
計算機專業(yè)畢業(yè)論文
2017年中國人工智能行業(yè)發(fā)展前景分析【圖】
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服