久久久久久极精品久久久,婷婷久久综合,亚洲一区亚洲二区亚洲三区

為什么圖像處理如此困難

西北望msm66g9f >《生產(chǎn)力》

2021.09.15

關(guān)注

新機器視覺

最前沿的機器視覺與計算機視覺技術(shù)

206篇原創(chuàng)內(nèi)容

公眾號

來源 | 小白學視覺

常會有人問“圖像處理中的開放的領(lǐng)域是什么？”

在圖像處理/計算機視覺方面，一切仍然是一個開放的研究領(lǐng)域！

但為什么會這樣呢？你認為經(jīng)過幾十年的研究，我們會很自然地說“這里的問題已經(jīng)解決了，讓我們專注于別的事情”。在某種程度上，我們可以這樣說，但僅適用于狹窄和簡單的用例（例如，在空的白板上放置紅色勺子），而不是一般的計算機視覺（例如，在所有可能的場景中找到一把紅色的勺子，就像一個大盒子滿了五顏六色的玩具）。

在我們深入研究我認為計算機視覺如此嚴峻的主要原因之前，我首先需要解釋機器如何“看到”圖像。當我們?nèi)祟愑^看圖像時，我們會感知物體，人物或景觀。當機器“查看”圖像時，他們看到的只是代表單個像素的數(shù)字。

一個例子可以解釋這一點。假設(shè)你有一個灰度圖像。然后，每個像素由一個通常在0到255之間的數(shù)字表示（我在這里抽象壓縮，顏色空間等等），其中0表示黑色（無顏色），255表示白色（全強度））。0到255之間的任何一個都是灰色陰影，如下圖所示。

因此，對于要任何獲取圖像內(nèi)容的機器來說，它必須以某種方式處理這些數(shù)字。這正是圖像/視頻處理和計算機視覺的全部 - 處理數(shù)字！

接下來將從四個方面來解釋，解決這個問題非常困難的主要原因。

數(shù)據(jù)量大
固有的信息丟失
伴隨噪音
理解圖像含義困難

數(shù)據(jù)量大

正如我上面所說，當涉及到圖像時，所有計算機都看到數(shù)字...... 很多數(shù)字！許多數(shù)字意味著需要處理的大量數(shù)據(jù)才能被理解。

我們舉一個例子來說明圖像的數(shù)據(jù)量究竟有多大。如果您具有1920 x 1080分辨率的灰度（黑白）圖像，則表示您的圖像由200萬個數(shù)字（1920 * 1080 = 2,073,600像素）描述?，F(xiàn)在，如果切換到彩色圖像，則需要三倍的數(shù)字，因為通常情況下，當您表示彩色像素時，您可以指定它所包含的讀數(shù)，藍色和綠色。然后，如果你試圖分析來自視頻/攝像機流的圖像，例如30幀/秒的幀速率（現(xiàn)在是標準的幀速率），你突然處理1.8億個數(shù)字每秒（3 * 2,073,600 * 30~ = 1.8億像素/秒）。這是需要處理的大量數(shù)據(jù)！即使擁有當今功能強大的處理器和相對較大的內(nèi)存大小，機器也很難做出有意義的事情，每秒有1.8億個數(shù)字。

信息丟失

數(shù)字化過程中的信息丟失是造成計算機視覺難度的另一個主要因素。圖像處理的本質(zhì)是從3D世界（如果我們處理視頻流中的數(shù)據(jù)則是4D）投影到2D平面（即平面圖像）上獲取信息。這意味著在此過程中會丟失大量信息。

我們的大腦可以非常出色的推斷出丟失的數(shù)據(jù)是什么，但是對于計算機來說卻是極其困難的挑戰(zhàn)。下圖顯示的是一個凌亂的房間

我們可以很容易地看出，綠色健身球比桌子上的黑色平底鍋更大更遠。但是如果黑色平底鍋比綠色球占據(jù)更多的像素，機器應(yīng)該如何推斷呢？這不是一件容易的事。當然，我們可以嘗試通過同時拍攝兩張照片并從中提取3D信息來模擬我們用兩只眼睛看到的方式，這被稱為立體視覺。然而，將圖像拼接在一起也不是一項微不足道的任務(wù)，因為同樣是一個開放的研究領(lǐng)域。

伴隨噪聲

數(shù)字化過程中經(jīng)常伴隨著噪音。例如，沒有相機會拍攝出一個完美的不含噪聲的現(xiàn)實圖片，特別是當我們用手機上的相機進行拍照時，他們會通過調(diào)整強度等級，色彩飽和度等去嘗試捕捉我們美麗的世界。同時在圖像拍攝過程中肯能會出現(xiàn)“鏡頭光暈”的現(xiàn)象，我們可以輕松的判斷光暈后面是什么場景，而對于計算機來說確實非常困難的。

雖然已經(jīng)有很多去除光暈的算法，但是去除光暈的算法本身也是開放的領(lǐng)域。

另外，在圖像壓縮的過程中會對圖像降低像素或者變換操作，而這樣的圖片對于人來說可以輕松的識別，而對于計算機，如果不告訴它壓縮變換的操作，它會當作壓縮后的圖像為原圖像進行識別，從而產(chǎn)生錯誤。

理解圖像含義困難

最后也是最重要的是就是對圖像內(nèi)容的理解。對于機器來說，這絕對是計算機視覺環(huán)境中最難處理的事情。當我們觀看圖像時，我們會用累積的學習和記憶（稱為先驗知識）來分析它。

例如，我們知道，我們可以坐在健身球上，而平底鍋通常用在廚房里，因為這些東西我們過去已經(jīng)了解過。如果有一些東西看起來像天空中的平底鍋，很可能它不是平底鍋（除非是紅太狼把打灰太狼的平底鍋扔天上了），因此我們可以進一步仔細檢查，以確定對象可能是什么（例如飛盤?。?。或者如果有人圍著綠球踢球，很可能是小孩子的球而不是健身球。

但機器沒有這種知識。他們不了解我們的世界，不了解其中固有的復雜性，以及我們在數(shù)千年的進化中創(chuàng)造的眾多工具，商品，設(shè)備等。也許有一天機器將能夠獲得維基百科并從那里了解有關(guān)對象的信息，但目前我們離這種情況很遠。

有些人會爭辯說，我們永遠不會達到機器能夠完全理解我們現(xiàn)實的階段 - 因為意識總是對他們來說是遙不可及的。

但是在未來的發(fā)展中誰又說的好呢。

本站僅提供存儲服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊舉報。

打開APP，閱讀全文并永久保存查看更多類似文章

數(shù)字圖像處理（上海交大版）

七步帶你認識計算機視覺

你絕對想象不到機器人是如何感知世界的！比你想象的要難10倍！

免费视频淫片aa毛片_日韩高清在线亚洲专区vr_日韩大片免费观看视频播放_亚洲欧美国产精品完整版