事實上,許多具有傳感器的裝置早就存在我們的生活里,如攝像機、數(shù)碼相機、喇叭與麥克風等也在過去十年左右數(shù)位化并連上網(wǎng)絡。但連接網(wǎng)絡攝像機與網(wǎng)絡連接儲存裝置(NAS)所組成的數(shù)字監(jiān)控系統(tǒng)相較于過去閉路式、類比訊號的監(jiān)視裝置,除了儲存資料數(shù)字化之外,在本質(zhì)上并沒有太大的不同,一樣需要人監(jiān)控、回放,并判斷實際現(xiàn)場情況。但當人工智能應用普及,影像識別、語音識別轉(zhuǎn)成文字不在遙不可及,網(wǎng)絡攝像機或現(xiàn)場麥克風所傳回的資料都可以即時通過自動識別,判斷畫面中的物體,加上搜集人臉資訊及現(xiàn)場收音,AI都足以自動綜合解讀更多現(xiàn)場狀況,讓安防業(yè)者不再需要配置人力長時間全神貫注的監(jiān)控,僅需排除異常狀態(tài)。
數(shù)字監(jiān)控系統(tǒng)配上人工智能應用,仿佛在機器中加上了靈魂。如果可以透過人工智能學習辨識不同內(nèi)容組合的場景,并應對相應的處理機制,數(shù)字監(jiān)控系統(tǒng)就能協(xié)助安防管理,并達成真正的智能化。
然而,要能夠讓攝像機進行影像辨識,除了可以將影像即時傳輸回主機上再進行計算判讀外,也可以想辦法透過攝像機上的處理器直接進行計算與辨識。前者需要占用大量網(wǎng)絡傳輸資源,也有延遲時間的限制,但如果可以在攝像機里加上適當設計、低功耗的處理器與作業(yè)系統(tǒng),直接現(xiàn)場進行計算辨識,不但可以降低傳輸成本,也能減少辨識結(jié)果的延遲時間,并加快即時反應?!斑吘壷悄堋本褪侵冈诮K端裝置上的處理器與全套作業(yè)系統(tǒng),也可以說是人工智能落實到真實生活未來應有的最后一里路。
從訓練到推論,芯片是最后一塊拼圖!
對于企業(yè)來說,深度神經(jīng)網(wǎng)絡(Deep Neural Networks)所帶起的人工智能浪潮,就如同遙遠的國度發(fā)生了大海嘯,要把如今相對成熟的圖像識別、語音識別或文本翻譯等功能,放進真實環(huán)境做為商業(yè)應用還有一段距離。
由于深度學習的演算法與相關應用還在快速演進的過程中,無論是智能城市、智能零售、智能音箱或無人車等應用,仍在大量收集數(shù)據(jù),讓深度學習演算法辨別這些資料特征與模式的階段,這個系統(tǒng)過程我們稱為訓練(Training),讓電腦嘗試從我們所搜集的資料來學習。
訓練的過程需要極大的運算量,以圖像識別為例,要訓練電腦模型認識一個特定物體,例如花朵或貓咪,可能需要至少上千張、多則數(shù)萬張各種不同角度、不同場景、不同光線下所拍攝的照片,因此這樣的運算往往在云端或數(shù)據(jù)中心進行。如果要求同樣一個模型能夠識別各種不同品種的貓,除了需要更多的照片之外,更需要人工對這些照片中的貓咪品種進行分類標注,再交給深度學習相關的演算法進行訓教,才能得到最終可應用的模型。
訓練是整個人工智能應用里,最耗計算資源的工作步驟,所以通常通過繪圖處理器(GPU)擅長的平行運算來進行加速。尤其是現(xiàn)在最熱門、超過百層、復雜度極高的深度神經(jīng)網(wǎng)絡,都會希望使用可針對大型矩陣運算做平行處理的特殊計算芯片來加速訓練過程。然而,人工智能的真實應用往往發(fā)生在終端,無論是圖像、影像、語音識別或文本翻譯,通過深度學習所訓練出來的模型如果放在云端,意味著每次應用發(fā)生時,終端必須先傳輸圖像、影像、語音或文本,等云端判讀后再將結(jié)果回傳。就算網(wǎng)絡頻寬再大、速度再快,這段傳輸與回傳過程都要占用資源,并造成反應延遲。
所以能夠在終端接收實體資料,并快速預測回應的過程稱為推論(Inference)。對推論來說,在終端應用上減少那些對預測不必要的模型或是合并對結(jié)果無足輕重的運算,來縮小計算規(guī)模是非常重要的。就算推論相對不消耗資源,但多數(shù)推論應用仍需特殊計算芯片的加速來縮短反應時間,也就是說,若終端要能進行推論,每一臺裝置都將以芯片來加強能力。





