天天做天天干,99亚洲精品视频

5月8日上午，曠視首席科學(xué)家、西交大人工智能學(xué)院院長孫劍博士在線做了一場“視覺計算的前沿進(jìn)展”的報告，報告是由「信息技術(shù)新工科產(chǎn)學(xué)研聯(lián)盟」主辦的人工智能教育線上公開課。

孫劍博士在報告中將當(dāng)前使用卷積神經(jīng)網(wǎng)絡(luò)的計算機視覺分兩個方面進(jìn)行了探究：

1、卷積神經(jīng)網(wǎng)絡(luò)，核心可以歸納為：網(wǎng)絡(luò)的深度、網(wǎng)絡(luò)的卷積操作、網(wǎng)絡(luò)的寬度和網(wǎng)絡(luò)的大小。

2、計算機視覺，核心問題可以歸納為：分類、檢測、分割以及序列。

孫劍表示，針對這些問題，研究員們已經(jīng)做出了非常多的努力，也有了非常多的進(jìn)步，但是長尾分布、自監(jiān)督學(xué)習(xí)、遮擋等計算機視覺中的關(guān)鍵問題還沒有解決。

下面我們對孫劍博士報告的部分內(nèi)容作以介紹。

卷積神經(jīng)網(wǎng)絡(luò)

計算機視覺包含很多任務(wù)，其中一條主線是如何理解一張圖片，也就是圖像的表示問題。從1978年的 2.5D Sketch一直到中間的點特征、局部特征再到今天的深度卷積神經(jīng)網(wǎng)絡(luò)，圖像表示問題已經(jīng)有了幾十年的研究。

當(dāng)前最主流的方法是深度卷積神經(jīng)網(wǎng)絡(luò)，即輸入一張圖片，經(jīng)過中間函數(shù)的作用，輸出一個類別。但卷積神經(jīng)網(wǎng)絡(luò)到底學(xué)到了什么呢？孫劍提到，學(xué)到的東西可以分為低級表示和高級表示兩個維度，低級表示例如線段、邊緣、紋理等，高級特征例如如狗、耳朵等。

卷積神經(jīng)網(wǎng)絡(luò)開始的思想很早之前就已經(jīng)存在，早在80年代，日本科學(xué)家提出神經(jīng)認(rèn)知機的概念，可以算作是卷積網(wǎng)絡(luò)最初的實現(xiàn)原型。90年代Yann LeCun 把這種方法發(fā)揚光大，從而學(xué)界開始卷積神經(jīng)網(wǎng)絡(luò)的研究。

卷積神經(jīng)網(wǎng)絡(luò)的核心問題可以歸納為上面幾個：大小、卷積、深度、寬度。其中卷積最核心，作為一種算子，其具有空間不變性、權(quán)重共享等特點，一般3*3的卷積最為常見。一個3*3的卷積如果再加上通道數(shù)的卷積計算，就能提取特征信息。后來出現(xiàn)的1*1的卷積也非常有效，其能夠有效的降低計算復(fù)雜度，融合它的通道信息。

隨后，卷積使用產(chǎn)生了分組思想，即把整體的通道分成不同的組從而完成計算，在降低復(fù)雜度的同時，也更加高效。在往下發(fā)展，Depthwise概念出現(xiàn)，這個概念假設(shè)卷積中的特征為3D立方體，第一步先對每一層進(jìn)行獨立卷積，第二步是把上一步的卷積結(jié)果用一個點卷積進(jìn)行綜合。

在報告中，孫劍提到，在2018年的時候，其研究團(tuán)隊提出的ShuffleNetV1就結(jié)合了分組和點卷積的思想，這個網(wǎng)絡(luò)第二步采用Shuffle操作，從而保證種通道信息可以交換，隨后的ShuffleNet v2改善了V1的第一步，強調(diào)通道切分和局部卷積，也讓模型更加高效。

最新的卷積設(shè)計思想是動態(tài)卷積計算，區(qū)別于每一層卷積根據(jù)前面的輸入不變的思想，能夠根據(jù)輸入不同動態(tài)生成卷積參數(shù)。例如曠視的動態(tài) Channel-wise Mixture 就采用了此思想，增強了模型的擬合能力。

卷積神經(jīng)網(wǎng)絡(luò)第二個核心是“深度”，其有兩個障礙：1.深度神經(jīng)網(wǎng)絡(luò)如果過深則無法訓(xùn)練；2.實驗結(jié)果難以復(fù)現(xiàn)。這兩個障礙也是神經(jīng)網(wǎng)絡(luò)在歷史上幾起幾落的重要因素，在2012年以前，神經(jīng)網(wǎng)絡(luò)的深度是有欠缺的。

2012年Hinton和他的學(xué)生AlexKrizhevsky 做出了有8層的 AlexNet。兩年之后，19層的VGG網(wǎng)絡(luò)和22層的GoogleNet出現(xiàn)，從此科學(xué)家開始攻堅“深度”。2015年孫劍領(lǐng)導(dǎo)微軟團(tuán)隊第一次做出了超過100層的RestNet。

網(wǎng)絡(luò)越深，能力越強，如上圖所示，2015年，152層的RestNet在ImageNet圖像分類任務(wù)中，誤差精度超越人類。

為什么是152層？孫劍提到當(dāng)時內(nèi)存約束導(dǎo)致最多可以訓(xùn)練一個152層的網(wǎng)絡(luò)，另外，根據(jù)Jeffy Feldman的“100步極限”理論，100多層似乎是最優(yōu)數(shù)目。（100步極限理論：大腦高級決策時間在0.5秒、大腦皮層神經(jīng)元的電脈沖間隔5ms、大腦計算不會超過100個連續(xù)步驟）

ResNet的設(shè)計思想在于殘差學(xué)習(xí)的方式，即根據(jù)輸入將層表示為學(xué)習(xí)殘差函數(shù)。實驗表明，殘差網(wǎng)絡(luò)更容易優(yōu)化，并且能夠通過增加相當(dāng)?shù)纳疃葋硖岣邷?zhǔn)確率。ResNet解決了增加深度帶來的副作用（退化問題），這樣能夠通過單純地增加網(wǎng)絡(luò)深度，來提高網(wǎng)絡(luò)性能。在2018年ResNet也被用在了AlphaGo Zero訓(xùn)練，目的在于把棋盤看成圖像，預(yù)測落子步驟。

神經(jīng)網(wǎng)絡(luò)的寬度和表示能力強相關(guān)，統(tǒng)一逼近定理就是這個理論研究方向（統(tǒng)一逼近定理：一個足夠大的兩層神經(jīng)網(wǎng)絡(luò)可以逼近任意有界連續(xù)函數(shù)）。但是這個定理只告訴了能夠逼近，但是沒有說明怎樣逼近。

最近的一些研究把傳統(tǒng)機器學(xué)習(xí)和深度學(xué)習(xí)進(jìn)行了對比，傳統(tǒng)機器學(xué)習(xí)當(dāng)參數(shù)大到一定程度就會從欠擬合走向過擬合。但是用深度學(xué)習(xí)方法，如果過參數(shù)化，往往會有較低的訓(xùn)練錯誤和測試錯誤，也就是說模型實現(xiàn)了較高的泛化能力。

但是，如果網(wǎng)絡(luò)太寬會影響實用效果，一些研究就想著怎么進(jìn)行通道裁剪。例如元裁剪方法訓(xùn)練神經(jīng)網(wǎng)絡(luò)來裁剪網(wǎng)絡(luò)、最小二乘實現(xiàn)權(quán)重重建、LASSO回歸實現(xiàn)通道裁剪等等。

最后，網(wǎng)絡(luò)的大小，也就是特征圖的大小也是有研究方向。研究發(fā)現(xiàn)如果動態(tài)改變特征數(shù)大小，會產(chǎn)生非常有趣或者更好的一些效果，例如可以模擬數(shù)據(jù)增強效果或者說能夠搜索到更好的網(wǎng)絡(luò)構(gòu)架。

上面四個因素，深度、卷積、寬度、大小分別是單維度研究。目前神經(jīng)網(wǎng)絡(luò)構(gòu)架搜索研究方向，正在試著將這幾個維度同時聯(lián)合優(yōu)化。其核心是完成兩個迭代的過程：構(gòu)架搜索和權(quán)重訓(xùn)練。

在報告中，孫劍介紹到，他的團(tuán)隊目前正在做一個叫做超網(wǎng)絡(luò)的方法：第一步訓(xùn)練超網(wǎng)絡(luò)，第二步搜索子網(wǎng)絡(luò)直接繼承網(wǎng)絡(luò)的權(quán)重，如此便能快速找到更好的子網(wǎng)絡(luò)。

計算機視覺

計算機視覺始于60年代，Larry Robert最早涉及，他的博士論文就是計算機視覺領(lǐng)域的第一篇，當(dāng)時研究的核心內(nèi)容是如何用計算機分清一張圖物體和背景。

近幾年的發(fā)展也非常迅速，從計算機視覺學(xué)術(shù)年會CPVR來看，其論文提交數(shù)目不斷遞增，2019年已經(jīng)超過了5000篇論文。這也表示了計算機視覺方向的火熱。

計算機視覺核心問題大概有四個，分別是：分類、檢測、分割、序列。其中分類問題最著名的當(dāng)屬ImageNet，自2010年以來，每年度ImageNet大規(guī)模視覺識別挑戰(zhàn)賽（ILSVRC），研究團(tuán)隊在給定的數(shù)據(jù)集上評估其算法，并在幾項視覺識別任務(wù)中爭奪更高的準(zhǔn)確性?；谟嬎銠C視覺-分類，也誕生了許多應(yīng)用，例如人臉識別、機器人、醫(yī)療影像等等。

圖注：基本的檢測框架：1.輸入圖像；2.通過骨干網(wǎng)絡(luò)得到候選框；3.候選框得出局部區(qū)域；4.通過檢測頭；5、得到結(jié)果。

如果說分類問題涉及一張圖片里面大概包含什么，那么檢測問題不光知道包含什么，還要知道這個物體在哪里。傳統(tǒng)方法也能做檢測，但是2013年，在伯克利做博士后的Ross Girshick基于深度學(xué)習(xí)發(fā)明了R-CNN網(wǎng)絡(luò)效果吊打傳統(tǒng)模型，至此之后，檢測問題向深度學(xué)習(xí)找方向。

R-CNN的核心思想是：用傳統(tǒng)方法從圖像中抽取候選區(qū)域，然后將候選區(qū)域裁成一個一個的方框，隨后將方框饋送到網(wǎng)絡(luò)中進(jìn)行分類。但是這種裁剪方法可能需要在圖像中裁剪1000~2000個方框，會對計算量有非常多的要求。

于是2014年，SPP-Net出現(xiàn)，直接從特征圖裁剪，區(qū)別于R-CNN在圖像中裁剪，極大節(jié)約了計算量。

2015年 Faster R-CNN出現(xiàn)，打破了傳統(tǒng)的候選框計算方式，直接設(shè)計神經(jīng)網(wǎng)絡(luò)抽取候選框。這也意味著第一次物體檢測問題能夠全部用深度學(xué)習(xí)方法實現(xiàn)。

隨后，2017年ICCV的最佳論文提出Mask R-CNN 進(jìn)一步擴展深度學(xué)習(xí)方法，不但能夠輸出框，還能夠輸出物體的形狀。

后來的RetinaNet和YOLO V3方法更加高效，一步就能夠得到結(jié)果；Dense Box和FCOS能將整個方式更加簡化。

然后，孫劍介紹了介紹了一個名為MegDet的物體檢測器，表示它第一次從框架上支持超大mini-Batch訓(xùn)練，多機訓(xùn)練可以加速16倍，并且精度更高。還介紹了 objects365 V2 數(shù)據(jù)庫，其包含365種常見物體，2百萬張圖像，2.8千萬個人工標(biāo)注框。

除此之外，孫劍提到物體檢測中的遮擋問題是計算機視覺中非常前沿的研究，如果一張照片中有兩個人，一個人被另一個人部分遮擋，雖然人類的眼睛非常容易分辨出，但是因為包含推理，所以對于計算機來說是個非常困難的問題。

區(qū)別于單預(yù)測方法，去年他們的“一個候選框多個預(yù)測結(jié)果”的方法已經(jīng)在嘗試解決遮擋問題了。

在計算機視覺中雖然已經(jīng)取得了非常多的進(jìn)步，但是還有一些關(guān)鍵問題沒有解決，例如長尾分布就是機器學(xué)習(xí)中的核心難題，也即對于不經(jīng)常發(fā)生或者不易常見的數(shù)據(jù)很難有充足的訓(xùn)練樣板，以至于機器學(xué)習(xí)方法就很難訓(xùn)練好模型。

如何不通過大量有監(jiān)督的訓(xùn)練標(biāo)注方法就能達(dá)到很好的學(xué)習(xí)效果（自監(jiān)督）？如何把一個視頻序列中的同一個物體很好的關(guān)聯(lián)起來？顯然，今天深度學(xué)習(xí)的方法并不能很好的測試和解決這些問題。

本站僅提供存儲服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊舉報。

免费视频淫片aa毛片_日韩高清在线亚洲专区vr_日韩大片免费观看视频播放_亚洲欧美国产精品完整版