人工智能技術(shù)發(fā)展到現(xiàn)在已經(jīng)很強大,AlphaGo已經(jīng)把眾多圍棋世界冠軍踩在腳下,讓大家心生恐懼,就算在圖像識別這件小事上,也比人類更好更快,然而,科學(xué)家認為這還遠遠不夠,對于AI的發(fā)展來說,理解視頻中的動態(tài)行為是接下來的關(guān)鍵發(fā)展方向。
為什么要理解視頻?
據(jù)統(tǒng)計,目前視頻占互聯(lián)網(wǎng)流量的90%,它極大地推動了全球數(shù)據(jù)總量的高速增長,未來十年內(nèi),全球數(shù)據(jù)量將增長50倍,其中視頻占最高比例。按照國家發(fā)改委的規(guī)劃,到2020年,視頻將全部高清化、連網(wǎng)化,那么視頻所需占用的存儲空間是巨大的,所以對于挖掘視頻內(nèi)容的需求也是巨大的。
從另一個角度看,隨著“中國天網(wǎng)”的落實,中國已經(jīng)建成了世界上最大的視頻監(jiān)控網(wǎng),視頻攝像頭超過2000萬個,然而,每個省全部警種的視頻分析人員卻不足10萬個,未來,必須依靠人工智能和大數(shù)據(jù)進行視頻的處理分析。
因此,科學(xué)家面臨的下一個挑戰(zhàn)可能是教會機器不僅理解視頻包含了什么內(nèi)容,還要理解鏡頭中發(fā)生了什么。這可能帶來一些實際的好處,比如帶來強大的搜索、注釋和挖掘視頻片段的新方法,也可以讓機器人或自動駕駛汽車更好地理解周圍的世界如何運轉(zhuǎn)。
用視頻訓(xùn)練人工智能跟圖像識別類似,科學(xué)家們利用大量的視頻數(shù)據(jù)來訓(xùn)練AI,使其更好地理解真實世界的行為。
去年9月,IBM與MIT宣布組建“IBM-MIT腦啟發(fā)多媒體機器理解實驗室”,雙方攜手開發(fā)具有高級試聽能力的人工智能。前不久,MIT和IBM發(fā)布了一個龐大的視頻剪輯數(shù)據(jù)集,這個名為“時間數(shù)據(jù)集時刻”的視頻數(shù)據(jù)集囊括了從釣魚到霹靂舞在內(nèi)的許多動作的3秒鐘片段。該項目負責(zé)人、MIT首席研究科學(xué)家奧德·奧利瓦說,世界上許多事情瞬息萬變。如果你想明白為什么有些事情會發(fā)生,運動會給你提供很多信息。
無獨有偶,谷歌去年也發(fā)布了一套由800萬個做了標(biāo)記的YouTube視頻組成的視頻集YouTube-8M;臉譜正在開發(fā)名為“場景”“操作”和“對象”集的注釋數(shù)據(jù)集。
普林斯頓大學(xué)助理教授奧爾加·魯薩克維斯基專門從事計算機視覺工作。他表示,此前科學(xué)家認為,很難開發(fā)出有用的視頻數(shù)據(jù)集,因為它們需要比靜止圖像更多的存儲和計算能力。他說:“我很高興能使用這些新的數(shù)據(jù)集,3秒的時長很棒——它提供了時間上下文,同時對存儲和計算的要求也比較低?!?/p>
還有其他機構(gòu)在研究更具創(chuàng)造性的方法。位于多倫多和柏林的創(chuàng)業(yè)公司“二十億神經(jīng)元(Twenty Billion Neurons)”創(chuàng)造了一個定制數(shù)據(jù)集。該公司聯(lián)合創(chuàng)始人羅蘭梅·尼塞維奇稱,他們還使用了專門處理時間視覺信息的神經(jīng)網(wǎng)絡(luò),“用其他數(shù)據(jù)集訓(xùn)練的AI可以告訴你,視頻中顯示的是足球比賽還是派對;用我們的定制數(shù)據(jù)集訓(xùn)練的神經(jīng)網(wǎng)絡(luò)可以告訴你,是否有人剛剛進入房間?!?/p> AI真正實現(xiàn)智能需要找對方向
按照IBM的解釋,人類能夠觀看一段簡短的視頻并輕松地描繪出視頻內(nèi)容,甚至能預(yù)測后續(xù)事件的發(fā)生,而這樣的能力對機器來說依然是可望而不可及的。賦予機器真正的智能需要避免被常規(guī)概念錯誤引導(dǎo),回歸人類生物功能的方向。
北京大學(xué)信息科學(xué)技術(shù)學(xué)院計算機科學(xué)技術(shù)系主任黃鐵軍認為,“現(xiàn)在人們對視頻的理解只是為滿足媒體產(chǎn)業(yè)發(fā)展需要所定義的概念。比如‘幀’這個概念,是利用了人眼對頻率的識別,使人50毫秒之內(nèi)保留對視頻畫面的印象。但是從生物視覺上講,我們的大腦之所以能夠從復(fù)雜的環(huán)境里分辨人的動作,是因為視網(wǎng)膜接收連續(xù)的光子撞擊,神經(jīng)節(jié)細胞接收到足夠刺激后發(fā)放脈沖,脈沖序列傳送給大腦,使得大腦產(chǎn)生連續(xù)的印象,而非每秒30幀、50幀。所以傳統(tǒng)視頻輸入的方法,不一定適用于人工智能?!?/p>
所以,機器如果想要真正實現(xiàn)智能,還需要從仿生物的方向研究,人們應(yīng)該弄清楚眼睛發(fā)放脈沖是如何將信息編碼傳送給大腦的。
IBM的科學(xué)家認為,有效識別行為要求機器學(xué)習(xí)某個行動,并將獲得的知識應(yīng)用于正在進行同樣行動的情境中,這一領(lǐng)域的進步,即轉(zhuǎn)移學(xué)習(xí),對于AI的未來非常重要;而且,這項技術(shù)在實際中大有用途,“你可以用它來幫助改善對老年人和殘疾人的護理,比如告訴護理人員是否有老人跌倒,或者他們是否已經(jīng)吃過藥等等。”
一旦機器能夠看懂視頻,具備視覺能力的AI不僅能夠應(yīng)用于醫(yī)療、教育、娛樂等領(lǐng)域,無人駕駛汽車也能通過現(xiàn)實世界的“視頻”更好地預(yù)測人類及車輛等的行為,更準(zhǔn)確地進行決策,相信其安全性也能得到質(zhì)的提升。





