于無(wú)聲中聽(tīng)驚雷,AI神器落人間【上】
作者:桑尼
老王其人
大家好,我是老王,住在隔壁。老王是一位科技從業(yè)者,人到中年,本應(yīng)朝著油膩的方向一騎絕塵,不曾想這一大波兒AI來(lái)得過(guò)于胸猛妖嬈,老王不由自主地強(qiáng)迫自己變得清爽宜人去靠近她。
老王一直以來(lái)有兩個(gè)夢(mèng)想:第一是出一款震驚行業(yè)的AI方案,另一個(gè)嘛你懂得(PS:再次強(qiáng)調(diào)老王住隔壁)。
老王并非浪得虛名,老王曾出過(guò)響當(dāng)當(dāng)有行業(yè)影響力的AI產(chǎn)品,也曾位居某大型企業(yè)研究院掌門(mén)之位,在智能硬件領(lǐng)域帶過(guò)節(jié)奏領(lǐng)過(guò)風(fēng)騷。
英雄不談往事,還是說(shuō)老王這些年在冥思苦想如何搞AI(她)。
首先,老王很想談幾點(diǎn)這些年來(lái)的思考,以饗各位。
問(wèn)題一:AI產(chǎn)業(yè)到底需要什么樣的芯片?
人工智能發(fā)展幾經(jīng)沉浮,最近一次回到大眾視野源自2012年ImageNet大賽,在這屆大賽上,一個(gè)新玩意兒登場(chǎng)了,它就是卷積神經(jīng)網(wǎng)絡(luò)CNN,此后便一發(fā)不可收拾,火得一塌糊涂。甚至,卷積神經(jīng)網(wǎng)絡(luò)有一統(tǒng)視覺(jué)和語(yǔ)音之勢(shì)??梢?jiàn),卷積神經(jīng)網(wǎng)絡(luò)是這波兒AI大潮最重要的代表性技術(shù)。說(shuō)到這,答案自然有了,AI產(chǎn)業(yè)需要處理卷積運(yùn)算的協(xié)處理芯片!有人會(huì)問(wèn):為什么不是SoC?老王反問(wèn)你,AI行業(yè)高度碎片化,不同場(chǎng)景對(duì)卷積運(yùn)算性能要求不一樣,0.1TOPS,1TOPS,10TOPS…如何定義SoC?再說(shuō),市場(chǎng)上各種功能模塊高度成熟,應(yīng)有盡有,唯獨(dú)缺少高效的卷積運(yùn)算方案,現(xiàn)階段應(yīng)先解決好這個(gè)問(wèn)題,而不是上來(lái)就定一個(gè)SoC的小目標(biāo)。你不信老王可以,但你總不能質(zhì)疑谷歌吧。谷歌最近發(fā)布的端側(cè)開(kāi)發(fā)板,Edge TPU正是一顆協(xié)處理器,搭配NXP(前Freescale)的主控,看見(jiàn)沒(méi)?以谷歌之力,打造SoC并非難事哦,道理不言自明。“專(zhuān)用主控+協(xié)處理器”的小型異構(gòu)計(jì)算系統(tǒng)是現(xiàn)階段最合理的端側(cè)解決方案,谷歌或明或暗的告訴大家了。
問(wèn)題二:通用芯片還是專(zhuān)用芯片?
卷積運(yùn)算是高密度運(yùn)算,一般的通用型芯片看上去靈活好用但運(yùn)算起來(lái)力不從心,選擇更高性能的通用型芯片,但發(fā)現(xiàn)功耗也會(huì)同比升高,此類(lèi)方案部署在端側(cè)是不實(shí)際的。因此有一個(gè)指標(biāo)被特別看重,那就是“能耗效率”。一時(shí)間,整個(gè)產(chǎn)業(yè)都在思考“通用性與效率“二者能否得兼?其實(shí),這并不是一個(gè)新話題,早在高性能計(jì)算(HPC)領(lǐng)域,這個(gè)問(wèn)題就一直存在,只不過(guò)AI讓這個(gè)問(wèn)題被更廣泛思考。老王要跟大家說(shuō)的是,魚(yú)和熊掌你只能選一個(gè)!你不信老王可以,但你總不能質(zhì)疑計(jì)算機(jī)領(lǐng)域的宗師,2017年圖靈獎(jiǎng)獲得者John Hennessy和David Patterson吧,說(shuō)到這,DSA了解一下。DSA正是頂級(jí)大師給AI芯片領(lǐng)域指出的發(fā)展方向,即專(zhuān)用芯片。
在此還是要再提一下谷歌TPU,不知你注意沒(méi),TPU其實(shí)只有11條指令,常用的有5條,其中兩條還是內(nèi)存讀寫(xiě)指令,汗!沒(méi)錯(cuò)兒,這就是側(cè)重效率的專(zhuān)用芯片,可能不是你想象那種高度可編程的架構(gòu)哦。
問(wèn)題三:傳統(tǒng)計(jì)算架構(gòu)行不行?
答案是不行!摩爾定律對(duì)傳統(tǒng)架構(gòu)芯片性能提升的幫助已經(jīng)非常有限,硬生生堆砌計(jì)算單元,性能在理論上雖然可以提升,但是問(wèn)題便隨之出現(xiàn):內(nèi)存帶寬跟得上嗎?功耗hold得住嗎?計(jì)算單元利用率有保障嗎?你不信老王可以,但你總不能質(zhì)疑芯片學(xué)術(shù)領(lǐng)域的“奧林匹克”--- ISSCC上那些頂級(jí)學(xué)者的論文吧,實(shí)在抱歉,論文太多,老王就不一一列舉了,總之一句話:架構(gòu)不創(chuàng)新是不行了。
問(wèn)題四:芯片適配算法還是算法適配芯片?
剛剛我們談到了“通用性與效率”的問(wèn)題,那么新問(wèn)題來(lái)了,遍地的算法公司都自己關(guān)門(mén)搞一套模型架構(gòu),搞自定義操作的玩意兒,好像這年頭誰(shuí)要是用開(kāi)源的CNN模型就無(wú)法跟別人打招呼,那好吧,通用型芯片幾乎是他們的唯一選擇,問(wèn)題又來(lái)了,端側(cè)通用型芯片能落地嗎?能跑起算法的那些高性能的多核ARM芯片動(dòng)輒四瓦以上的功耗瞬間變身”小火爐”,用戶(hù)受得鳥(niǎo)嗎?找個(gè)功耗低一點(diǎn)的ARM芯片,性能不足導(dǎo)致實(shí)時(shí)性沒(méi)有了,用戶(hù)體驗(yàn)不佳,用戶(hù)受得鳥(niǎo)嗎? 好吧,芯片不落地,算法也就無(wú)法變現(xiàn),算法公司怎么活?算法公司本不是老王操心的重點(diǎn),重點(diǎn)是老王從video行業(yè)一路走來(lái),目睹了從視頻格式大爆發(fā)到最后只剩三種:H.264,H.265,VP9。老王想跟諸位說(shuō),市場(chǎng)上幾百種上千種CNN模型,最終能剩下的可能不超過(guò)五個(gè),因?yàn)槟P捅旧硪苍诟?jìng)爭(zhēng),背后的陣營(yíng)也在競(jìng)爭(zhēng)。識(shí)時(shí)務(wù)者為俊杰,老王給算法公司建言:讓算法主動(dòng)去適配芯片,搭上專(zhuān)用芯片出貨的順風(fēng)車(chē),早點(diǎn)變現(xiàn)才是生存之道!
說(shuō)到這不知諸位有沒(méi)有思考過(guò)這些問(wèn)題,在下篇中老王將解開(kāi)神器面紗,推出老王力作,別走開(kāi),老王好久沒(méi)去隔壁了,去打聲招呼馬上回來(lái)噢!





