曠視科技首席科學家孫劍：登上“人工智能之月”，我們爬樹還是造火箭？

時間：2020-08-19 22:54:01

關鍵字：人工智能人臉識別

手機看文章

掃描二維碼
隨時隨地手機看文章

[導讀] 　　孫劍博士2003年畢業(yè)于西安交通大學，后一直在微軟亞洲研究院工作，擔任首席研究員。其主要研究方向是計算攝影學，人臉識別和基于深度學習的圖像理解。自2002年以來在CVPR，ICCV，SIGG

　　孫劍博士2003年畢業(yè)于西安交通大學，后一直在微軟亞洲研究院工作，擔任首席研究員。其主要研究方向是計算攝影學，人臉識別和基于深度學習的圖像理解。自2002年以來在CVPR，ICCV，SIGGRAPH，PAMI等頂級學術會議和期刊上發(fā)表學術論文90余篇，兩次獲得CVPR最佳論文獎（2009，2016）。孫劍博士于2010被美國權威技術期刊MIT Technology Review評選為“全球35歲以下杰出青年創(chuàng)新者”。孫劍博士帶領的團隊于2015年獲得圖像識別國際大賽五項冠軍（ImageNet分類，檢測和定位，MSCOCO檢測和分割）。孫劍博士擁有四十余項國際或美國專利，他和他的團隊的研究成果被廣泛應用在微軟Windows，Office，Azure，Bing，Xbox等產(chǎn)品中。孫劍博士于2016年7月正式加入曠視科技擔任首席科學家。

　　大家好，我是Face++的孫劍。

　　前面大家提到人工智能的前景，共識是目前感知智能已經(jīng)做的很不錯了，但仍舊沒有明確的思路去做認知智能。

　　Face++曠視科技的研究團隊現(xiàn)在集中精力在做感知智能。我們的基本思路很簡單：做技術，做產(chǎn)品，做數(shù)據(jù)，希望讓三者形成正循環(huán)來推動人工智能的發(fā)展。

　　我在Face++和微軟做的事

　　我在Face++做的核心技術研究與我在微軟時做的方向一致：圖像分類、物體檢測、語義分割、和序列學習。

　　關于第一個核心技術（圖像分類）在ImageNet上的進展：去年我和微軟團隊做的ResNet一舉把網(wǎng)絡的深度從十層或二十層推到152層，效果非常好，而且這個模型我們已開源，并且在業(yè)界得到了廣泛應用。在Face++我會繼續(xù)進行這個方向的研究，我們系統(tǒng)是ResNet的一個改進版，它和微軟時的系統(tǒng)有何不同呢？新版本融入了新的網(wǎng)絡架構設計思想，現(xiàn)在一個新的改進版ResNet在ImageNet上可以媲美以往組合六個ResNet。

　　圖像分類中一個很重要的問題叫做人臉識別，2013年我跟微軟的同事做出High-dimensional Feature，這是是沒有深度學習時最好的方法。隨后Facebook用了DeepFace，也是第一次用深度學習神經(jīng)網(wǎng)絡方法，使得人臉識別率與人類眼眼的識別率非常接近，隨后很多家公司包括Face++均采用了深度學習的方法在數(shù)據(jù)集上超過人眼識別率。

　　那么計算機真在人臉識別率上超過了人了嗎？我的回答是：很多情況下，是的。例如在身份認證和智能安防方向的應用，F(xiàn)ace++的人臉識別產(chǎn)品已經(jīng)超過了人。人臉識別研究已有三十年，今天我們是第一次在上億的規(guī)模上應用人臉識別。

　　我們關心的第二個核心技術是物體檢測，即，將各種物體在圖像中識別并定位出來，換句話說就是不但要識別圖像包含什么物體，還要知道物體在哪里。目面Face++擁有一個在著名的VOC2012物體檢測的評測中性能最好的單模型物體檢測器。為什么強調單模型呢？因為考慮到端上計算力的限制，我們在實際產(chǎn)品廣泛使用單模型。

　　我們關心的第三個核心技術是語義分割，就是對每個像素分類。這是一個更為精細的分類工作。我們Face++的一名實習生的工作目前在VOC2012語義分割評測中名列第一，他現(xiàn)在正在準備CVPR的投稿。我們歡迎廣大的在校學生來我們公司做最頂尖的研究，做更有趣的應用。語義分割還能應用在智能安防場景中，這個視頻展示了我們不僅可以把人分割出來，還能把人的不同部位分割出來。由于時間原因，關于序列學習我就不展開了。

　　做這些技術需要一個做訓練引擎和平臺，目前行業(yè)里較為流行的有微軟的CNTK，谷歌的TensorFlow，和開源的Caffe。而Face++則有著自己的平臺叫Brain++，它的設計與TensorFlow相似。TensorFlow發(fā)布至今有一年的時間，而我們的Brain++已經(jīng)在公司運行將近兩年了。做自研的平臺非常關鍵，公司敢做并能做，是因為我們擁有最頂尖的人工智能技術人才，我們的研究團隊應該是中國ACM金牌選手密度最高的地方。目前在人工智能創(chuàng)業(yè)公司中使用自己的深度學習訓練引擎的，可能只有Face++。

　　有了這樣的平臺和技術，我們打造了兩方面的產(chǎn)品：SmarTID，用來提供身份認證服務；SmartCamera，用來將智能前端化。目前我們產(chǎn)品覆蓋包括銀行、金融、、互聯(lián)網(wǎng)、零售、地產(chǎn)、公共安全和機器人等行業(yè)。我們希望通過“人工智能+”把人工智能滲透到每個行業(yè)當中。

　　這里有幾個數(shù)字，F(xiàn)ace++人工智能云開放平臺的API已經(jīng)服務了近七萬開發(fā)者，已被調用62億次；我們的身份認證平臺目前已為一億人，注意不是一億次，提供了身份認證的刷臉服務，覆蓋了85%的金融市場智能化應用。

　　從感知智能走向認知智能

　　一般情況下我的報告到這里就結束了，但今天是回家匯報，那我就再繼續(xù)分享一些對人工智能更個人的看法。我也一直在問自己一個問題，我們當下研究AI方法，是在爬樹還是在造火箭。

　　這里有一幅畫的內容是這樣：你要想上月球，選擇爬樹能接近月球，每年還能有不錯的進展，有些樹高得可能一輩子都爬不完，但到不了月球那里。如果我們不知道怎么造火箭，只用爬樹的方法，是永遠上不了月球的。

　　那么問題來了，我們現(xiàn)在研究AI的方法到底是在爬樹還是在造火箭？按我們目前的辦法到底能不能上“月球”？

　　再回到開場時的提及的感知智能和認知智能這一話題。大多數(shù)感知智能能做下去，是因為我們能夠很明確的定義他的輸入和輸出是什么，然后我們用非常深的神經(jīng)網(wǎng)絡去擬合一個函數(shù)f（x）就可以。

　　但在認知智能方面，我們不知道如何去定義它，不知道如何去準備訓練數(shù)據(jù)或環(huán)境，換個說法或許是這個系統(tǒng)太復雜，以至于我們無從入手。所以我把大多數(shù)人做的、特別是工業(yè)界研究人工智能的方法概括為方法一。

　　什么是方法一？方法一就是：從實踐到理論。

　　靠不斷地實踐來得到理論，不過嚴格意義上講，其實是沒理論。由于人工智能這個大問題過于復雜，我們也比較現(xiàn)實地把它拆分為很多很多子問題：如語音、視覺、自然語言等等。這就是我們目前研究人工智能的方法。

　　于是我們問自己有沒有方法二，能不能從理論到實踐，能不能先有一個理論，然后應用到所有問題當中去。

　　那現(xiàn)在到底有沒有這樣的指導性理論呢？我自己是一直不大相信有的，借用我的博士導師沈向洋的一句話：哪兒有那么多隨便就能指導實踐的理論。

　　大腦皮層給人工智能的啟示

　　直到我最近重新讀了一遍Jeff Hawkins寫的《人工智能的未來On Intelligence》，我有些相信了。這本書出版于2004年，此前我在2009年讀過一次。Jeff Hawkins是Palm的創(chuàng)始人，在創(chuàng)立Palm前他已經(jīng)學習了很多人腦科學方面的知識。他在做Palm賺夠錢后建立了Numenta研究所，專門研究機器智能。他寫這本書的一個很大動機是對外闡述他對機器智能的理解。

　　書中寫到大腦分為兩部分：大腦皮層和舊腦（古腦）。

　　大腦皮層大概有六層，每層兩毫米厚，鋪開的面積可能比桌子還要大，每個神經(jīng)元和周圍的成千上百的神經(jīng)元相連接。大腦皮層并不是突然出現(xiàn)，最開始爬行動物是沒有大腦皮層的，而在幾千萬年前哺乳動物開始有了大腦皮層，幾百萬年前人類的大腦皮層突然增大，使得人和動物劃開了界限。

　　書中最讓作者包括我信服的觀點是：人比動物聰明，是因為人類大腦皮層簡單迅速地復制了自己，而不是生成其他特殊的結構；幾百萬年的時間不足以生成一個特殊的結構。

　　上世紀70年代曾有人提出這樣一個觀點：大腦皮層是同質的，每個地方都一樣，這下面可能存在一個主管我們人類智能的通用的算法；人類有不同的各種感知只是因為不同的輸入器官與大腦皮層相連接。

　　而且大腦皮層可以重塑，如果某個人天生失明，那他原來主管視覺部分的皮層可以演化為聽覺部分，大腦皮層的各部分功能不是固定下來一定要做什么的。

　　大腦皮層的這個通用算法其實是在實時處理時-空的神經(jīng)元突觸的電位變化，這里面有個計算方法，該計算方法和計算機的計算方法不同，它不是靠算的。有神經(jīng)學的分析，人類的大腦的運算速度并不快，大腦不是在計算，而是在記憶中直接提取相似的東西，從而直接回答答案。簡單來說，人是利用記憶系統(tǒng)來完成計算的。

　　我這里列出了書中對人類記憶的屬性的描述，時間關系就不詳述了。

　　Jeff Hawkins在最后展示他的智能理論新構架時問：什么是理解？

　　他舉個例子，如果我們回到家看到家中的環(huán)境，我們可能不會特別注意到什么；但家里假如出現(xiàn)一個新物體，我們的注意力馬上就會被吸引過去。Jeff Hawkins做出以下理論解釋：大腦時時刻刻都在做著各種預測，如果哪個地方預測失敗了，那個地方可能就是出現(xiàn)了新情況或新物體。此外，大腦皮層還在做各種各樣的從初級到高級的預測。

　　從理論到實踐

　　這里有個非常有意思的故事，當年我們寫過一篇關于圖像修補（Image CompleTIon）的論文，論文的研究內容是猜測被遮擋住物體的后面是什么樣子的。其實人也在有意識無意識的預測這種事。當年我們在和沈向洋老師一起寫論文時就是在預測某個物體的后面是什么，然后把它畫出來。

　　《人工智能的未來》一書的理論簡單來說，就是該理論認為智能是一個記憶-預測（Memory-PredicTIon）的框架，智能是你能夠利用對這個世界模式的記憶和預測的能力來衡量的。圖靈定義圖靈智能，是利用行為來衡量。而Jeff Hawkins并不同意。

　　我第一次讀過這本書后受到很大的啟發(fā)，于是在2011年寫過一篇CVPR論文。論文內容是為解決大姿態(tài)下人臉識別的問題：我們構建一個人臉數(shù)據(jù)庫，構建一個記憶，希望把正面臉和側面臉通過記憶連接起來，這是當時人臉識別最好的方法。有趣的這篇論文的第一作者是Face++的CEO&創(chuàng)始人印奇。

　　目前在神經(jīng)網(wǎng)絡的研究中，我們認識到記憶的重要性，如果沒有記憶，那么訓練出來的系統(tǒng)僅能完成一個簡單的f（x），所以目前業(yè)界最近有很多的人工智能最前沿工作均集中在如何實現(xiàn)有效的記憶機制，如何存儲不變表示等方面。

　　最后回到報告的題目，當下我們都茍且在方法一上，我以前不是那么相信從理論到實踐；但現(xiàn)在我相信從理論到實踐的方法二是存在的，而且就像大腦皮層簡單復制自己一樣可能沒有那么復雜。方法二的到來比我們想象的更快。