人的眼睛有600萬到700萬個錐體細胞,其中包含三種被稱為視蛋白的對顏色敏感的蛋白質(zhì)之一。當(dāng)光子擊中這些視蛋白時,它們會改變形狀,引發(fā)級聯(lián)反應(yīng),產(chǎn)生電信號,進而將信息傳遞給大腦進行解讀。
整個過程是一個非常復(fù)雜的現(xiàn)象,并且使機器在人類層面上解釋這一點一直是一個挑戰(zhàn)?,F(xiàn)代機器視覺系統(tǒng)背后的的核心動機在于模擬人類視覺,用于識別圖案,面部以及將將2D圖像轉(zhuǎn)化為3D模型等。
在概念層面,圖像處理和計算機視覺之間存在很多重疊,并且經(jīng)常被誤解的術(shù)語可以互換使用。在這里,我們簡要概述了這些技術(shù),并解釋了它們在基礎(chǔ)層面上的不同之處。
一、圖像處理:
數(shù)字圖像處理技術(shù)于20世紀(jì)60年代末在美國國家航空航天局噴氣推進實驗室(Jet Propulsion Laboratory)首創(chuàng),通過計算機增強,將Ranger航天器的模擬信號轉(zhuǎn)換為數(shù)字圖像?,F(xiàn)在,數(shù)字成像有著廣泛的應(yīng)用,尤其是在醫(yī)學(xué)上。眾所周知的應(yīng)用包括計算機輔助斷層掃描(CAT)和超聲波。
圖像處理主要與數(shù)學(xué)函數(shù)和圖像變換的使用和應(yīng)用有關(guān),而不考慮對圖像本身進行任何智能推理。它僅僅意味著算法對圖像進行一些轉(zhuǎn)換,如平滑、銳化、對比度、拉伸。
對于計算機來說,圖像是一個二維信號,由像素的行和列組成。一種形式的輸入有時可以轉(zhuǎn)換成另一種形式。例如,磁共振成像(MRI),記錄下離子的激發(fā)并將其轉(zhuǎn)換成視覺圖像。
這里有一個用Python平滑圖像的例子:
對于一維信號,圖像還可以使用各種低通濾波器(LPF)、高通濾波器(HPF)等進行濾波。HPF濾波器有助于在圖像中找到邊緣。
這種使用矩陣的變換在卷積神經(jīng)網(wǎng)絡(luò)等機器學(xué)習(xí)算法中非常普遍。在圖像(像素值的另一個矩陣)上卷積濾波器,用于檢測邊緣或顏色強度。
在數(shù)字圖像處理中使用的一些技術(shù)包括:
1)隱馬爾可夫模型
2)圖像編輯與恢復(fù)
3)線性濾波和雙邊濾波
4)神經(jīng)網(wǎng)絡(luò)
二、計算機視覺:
計算機視覺來自使用機器學(xué)習(xí)技術(shù)建模圖像處理。計算機視覺應(yīng)用機器學(xué)習(xí)來識別用于解釋圖像的模式。就像人類視覺的視覺推理過程一樣;我們可以區(qū)分對象,對它們進行分類,根據(jù)它們的大小對它們進行排序等等。計算機視覺,如圖像處理,將圖像作為輸入,并以大小,顏色強度等信息的形式提供輸出。
特斯拉的無人駕駛系統(tǒng)通過Source檢測有霧情景中的物體
以下是標(biāo)準(zhǔn)機器視覺系統(tǒng)的組件:
1)相機
2)照明設(shè)備
3)鏡頭
4)抓幀器
5)圖像處理軟件
6)用于模式識別的機器學(xué)習(xí)算法
7)顯示屏或機械臂執(zhí)行從圖像解釋中獲得的指令。
例如,安裝在無人駕駛汽車上的攝像機必須檢測到前面的人,并將他們與車輛和其他特征區(qū)分開來?;蛘?,我們可以測量網(wǎng)球運動員在比賽中所走的距離。
球員運動的熱圖
因此,時間信息在計算機視覺中起著重要作用,就像我們自己理解世界的方式一樣。
這里的最終目標(biāo)是使用計算機來模擬人類視覺,包括學(xué)習(xí)和能夠根據(jù)視覺輸入進行推理和采取行動。
三、結(jié)論:
圖像處理是計算機視覺的一個子集。計算機視覺系統(tǒng)利用圖像處理算法對人體視覺進行仿真。例如,如果目標(biāo)是增強圖像以便以后使用,那么這可以稱為圖像處理。如果目標(biāo)是識別物體、汽車自動駕駛,那么它可以被稱為計算機視覺。