機器視覺雜話(ZA WARUDO)

電腦視覺(computer vision)是個跨領域的學科，主要在使電腦可以高階的理解影片或影像。來自視覺工程，電腦視覺的目的在使電腦可以自動的如人類視覺系統般的了解影片或影像。電腦視覺任務包括用於獲取，處理，分析和理解數位影像以及從現實世界中提取高維數據以產生數字或符號的資訊(numerical or symbolic information)的方法，例如使用數位影像來產生決策。電腦視覺任務主要有下面幾類：辨識(recognition)：影像分類(Image Classification)：對每個影像作分類，每個影像有單一對應(map)的類別。最近使用深度學習(deep learning)的技術為大宗。物件偵測(Object Detection)：稱為物件辨識(object recognition)或物件偵測(object detection)除了影像分類外，還需要知道物件在影像中的位置。語意分割(Semantic Segmentation)：對影像中產生像素級的分割，對每個像素給定分類的類別。實例分割(Instation Segmentation)：除了如同語意分割的分類外，還要對影像中的同類別物件分出不同的實例(instance)。在一張影像和影片中的一個frame中，裡面有多個人，這些同樣的[人]這個類別中去分出幾個不同的人，如照片裡面有你，我，他共三個人，所以有3個實例。影像分類(左上)、物件偵測(左下)、語意分割(右上)、實例分割(右下)。Source of Image: 目前為止，最好的演算法為卷積神經網路(convolutional neural network)。卷積神經網絡在ImageNet測試中的性能現在已經接近人類。但目前最好的演算法仍然很難處理太小或太細的物件，如在樹幹上的小螞蟻或花，或人手上拿的小筆；也無法處理被濾鏡扭曲的物件，這在現代的數位相機很常見。但人類的眼睛卻很容易分離並處理這些物件。相反的人類在更細粒度的分類往往會有問題，如特定品種的狗或鳥，但卷積神經網路在這個方面反而處理的很好。

搜尋此網誌

機器視覺雜話(ZA WARUDO)

發表文章

電腦視覺任務（computer vision tasks）