“非著名”中國AI初創(chuàng)公司,獲全球頂級學(xué)術(shù)大會唯一最佳論文
世界頂級FPGA會議——FPGA2017在落幕之時傳來消息:來自中國的初創(chuàng)公司深鑒科技的ESE語音識別引擎的論文獲得了本次會議唯一的最佳論文(Best Paper Award)。
FPGA2017 最佳論文證書
作為FPGA領(lǐng)域最具影響力、歷史最悠久的學(xué)術(shù)會議,F(xiàn)PGA國際大會始終引領(lǐng)著整個FPGA工業(yè)界的技術(shù)創(chuàng)新。
在深度學(xué)習(xí)浪潮席卷全球的今天,F(xiàn)PGA 2017特別增設(shè)了一個環(huán)節(jié):The Role of FPGAs in Machine Learning(FPGA在機器學(xué)習(xí)領(lǐng)域所扮演的角色),并邀請了兩家公司,英特爾與深鑒科技,共同致會議Tutorial。成立不足一年,深鑒科技已得到FPGA學(xué)術(shù)界的高度認(rèn)可。
FPGA(現(xiàn)場可編程門陣列,F(xiàn)ield-Programmable Gate Array)。簡而言之,這是一種程序驅(qū)動邏輯器件,就像一個微處理器,其控制程序存儲在內(nèi)存中,加電后,程序自動裝載到芯片執(zhí)行。
相比CPU和GPU,F(xiàn)PGA憑借比特級細(xì)粒度定制的結(jié)構(gòu)、流水線并行計算的能力和高效的能耗,在深度學(xué)習(xí)應(yīng)用中展現(xiàn)出獨特的優(yōu)勢,在大規(guī)模服務(wù)器部署或資源受限的嵌入式應(yīng)用方面有巨大潛力。此外,F(xiàn)PGA架構(gòu)靈活,使得研究者能夠在諸如GPU的固定架構(gòu)之外進(jìn)行模型優(yōu)化探究。
深鑒科技開發(fā)的“雨燕”深度學(xué)習(xí)處理平臺
去年5月,DT君作為首家媒體,對剛成立不久的深鑒科技進(jìn)行了專題報道。創(chuàng)始人兼CEO姚頌表示,現(xiàn)在有很多公司在做各種各樣的算法,包括ADAS(高級駕駛輔助系統(tǒng))或者機器人等應(yīng)用,因為算法是最快的切入方式。
但算法最終要落地,無論是在CPU上運行,還是在GPU上運行,都會受限于性能、功耗和成本等因素。深鑒科技的產(chǎn)品將以ASIC級別的功耗,來達(dá)到優(yōu)于GPU的性能,可把它稱作“深度學(xué)習(xí)處理單元”(Deep Processing Unit,DPU)。
深鑒科技首席科學(xué)家韓松在大會做關(guān)于高效深度學(xué)習(xí)的Tutorial
在本次FPGA大會的演講中,深鑒科技首席科學(xué)家韓松從算法、硬件、訓(xùn)練、推理四個維度,對于深度學(xué)習(xí)算法的訓(xùn)練與應(yīng)用兩方面如何變得更加高效進(jìn)行了闡述。韓松提出的“先壓縮、再加速”的深度學(xué)習(xí)推理方案,比“訓(xùn)完即用”的推理方案更快、更節(jié)約功耗。
上圖:傳統(tǒng)的“訓(xùn)完即用”的機器學(xué)習(xí)推理方案;下圖:韓松提出的“先壓縮、再加速”的機器學(xué)習(xí)推理方案
在本次會議上,深鑒科技的論文《ESE: Efficient Speech Recognition Engine withSparse LSTM on FPGA》得到錄用并最終被評選為本次大會的唯一最佳論文。該項工作聚焦于使用LSTM進(jìn)行語音識別的場景,結(jié)合深度壓縮以及專用處理器架構(gòu),使得經(jīng)過壓縮的網(wǎng)絡(luò)和未經(jīng)壓縮的網(wǎng)絡(luò)相比實現(xiàn)6倍的性能提升。本文所描述的ESE語音識別引擎也是深鑒科技RNN處理器產(chǎn)品的原型。
最佳論文頒獎
更為難得的是,此篇論文不僅僅停留在仿真與模擬結(jié)果階段,而是落在了實實在在的演示系統(tǒng)上。
會場外,基于ESE語音識別引擎的深鑒語音識別平臺進(jìn)行了現(xiàn)場展示,得到了參會教授與工業(yè)界人士的極大關(guān)注——使用Xilinx KU060 FPGA與NVIDIA GTX 1080 GPU運行一個實際應(yīng)用的LSTM現(xiàn)場對比,深鑒FPGA方案穩(wěn)定的保持了超過GPU六倍以上的性能。
這就意味著,處理相同的語音識別任務(wù),處理延遲大大降低,用戶體驗?zāi)苡忻黠@的提升。測試結(jié)果表明,深鑒能夠基于業(yè)界領(lǐng)先的商用的語音識別算法模型與數(shù)據(jù),實現(xiàn)模型壓縮,提升硬件性能。
深鑒科技CTO單羿(左圖)與CEO姚頌(右圖)現(xiàn)場向與會專家展示深鑒語音識別平臺
深鑒科技雖成立于2016年3月,但早在2013年,來自清華大學(xué)和斯坦福大學(xué)的幾位公司創(chuàng)始人就開始了深度學(xué)習(xí)相關(guān)的學(xué)術(shù)研究。
2015年深度學(xué)習(xí)頂級會議NIPS上,斯坦福大學(xué)在讀博士、深鑒科技首席科學(xué)家韓松提出利用剪枝和權(quán)重共享的方式對目前的深度神經(jīng)網(wǎng)絡(luò)在不損失網(wǎng)絡(luò)精度的前提下大幅度降低計算和存儲資源消耗。
公司技術(shù)團隊聚焦于稀疏化神經(jīng)網(wǎng)絡(luò)處理的技術(shù)路線,提出的“深度壓縮”(Deep Compression)算法可以將模型尺寸壓縮數(shù)十倍大小而不損失預(yù)測精度,并結(jié)合專用的深度學(xué)習(xí)處理架構(gòu)來實現(xiàn)加速。
ICLR 2016和FPGA 2017兩篇最佳論文的獲獎,再次證明了這家中國技術(shù)型初創(chuàng)公司所聚焦的稀疏化技術(shù)路線,已越來越得到深度學(xué)習(xí)界的認(rèn)可。





