摩爾定律漸漸失效 eFPGA將加速AI發(fā)展

時間：2018-12-07 09:12:01

關鍵字： achronix ai芯片 efpga

手機看文章

掃描二維碼
隨時隨地手機看文章

[導讀]AI正在迅速發(fā)展，對芯片算力和內存的要求也越來越高，但摩爾定律的放緩甚至失效讓芯片靠先進半導體工藝來提高芯片的性能和能效難度越來越大。此時，無論是在芯片市場耕耘多年的芯片霸主還是科技巨頭都紛紛研發(fā)AI

AI正在迅速發(fā)展，對芯片算力和內存的要求也越來越高，但摩爾定律的放緩甚至失效讓芯片靠先進半導體工藝來提高芯片的性能和能效難度越來越大。此時，無論是在芯片市場耕耘多年的芯片霸主還是科技巨頭都紛紛研發(fā)AI芯片，新的芯片類型和技術也開始涌現。那么，eFPGA這種嵌入式的FPGA技術將如何推動AI的發(fā)展？7nm eFPGA的設計又將如何被AI的發(fā)展影響？

AI加速發(fā)展與摩爾定律放緩

AI的快速發(fā)展讓智能語音助理幾乎成了手機的標配，也讓智能音箱的出貨量連年上漲。于此同時，越來越多的手機正在使用AI技術優(yōu)化拍照的效果以及對相冊的照片進行分類。不過這些只是AI技術現階段一些常見的應用，AI算法的不斷演變正在讓AI與更多的行業(yè)和應用結合，新的AI算法無論對芯片的算力還是內存等都提出了更高的要求，所有的AI芯片公司都在追求性能更高、功耗更低、面積更小的芯片。

回看芯片性能提升的歷程，在1986年到2003年之間，芯片性能和功耗持續(xù)降低，到了2003年之后，憑借著多核的設計以及半導體工藝的進步芯片的性能依舊在提升，但摩爾定律顯然已經放緩。2015年之后，芯片的提升越來越難，關于摩爾定律失效的討論越來越多。

摩爾定律減緩

因此，CPU、GPU、FPGA、ASIC性能的提升和功耗降低都面臨越來越大的挑戰(zhàn)，另外，從16nm到7nm節(jié)點，芯片制造成本也在大幅提升。對于運算速度、數據傳輸、內存帶寬都有較高要求的AI芯片，如何才能實現每瓦更高的性能以及更低的成本？

AI如何改變eFPGA的架構設計？

對于AI芯片，越來越多的芯片設計公司正在使用多核異構的架構來提升芯片的效率，滿足深度學習算法的需求。除了多核異構的架構，具體的核的架構也都在不斷針對AI優(yōu)化，FPGA也不例外。值得注意的是，成立于2004年總部位于美國的Achronix提供的是嵌入式FPGA技術。Achronix的Speedcore IP是可以集成到ASIC和SoC之中的嵌入式FPGA（eFPGA），作為可配置的協(xié)處理器和硬件加速器來支持各種各樣的任務，其比特位導向（bit-oriented）FPGA架構，比字段導向（word-oriented）的CPU架構更為高效，適用于SQL卸載、在線I/O處理、加密、搜索引擎算法性加速和增強多媒體處理等功能。

據了解，Achronix是唯一一家交付的eFPGA技術已經嵌入到ASIC中實現量產的公司，Speedcore IP適用的工藝節(jié)點包括TSMC 16nm FF+和英特爾的14nm FinFET，并已宣布將于2019年上半年開始提供適用于臺積電7nm工藝的第四代Speedcore eFPGA IP。

Achronix市場營銷副總裁Steve Mensor

除了支持最先進的制造工藝，7nm的eFPGA也進行了架構上的優(yōu)化，其中非常關鍵的就是將機器學習處理器（MLP）增加到Speedcore可提供的資源邏輯庫單元模塊中。Achronix市場營銷副總裁Steve Mensor表示：“MLP模塊是一種高度靈活的計算引擎，它與存儲器緊密耦合，利用了人工智能及機器學習處理的特定屬性，將這些應用的性能提高了300%?？梢酝瑫r提高每個時鐘周期的性能和操作次數，一個MLP在1個時鐘周期可以完成1個16×16的運算，8個8×8的運算，12個6×6的運算，16個4×4的運算。”

數據類型的支持對機器學習也非常重要，據悉MLP支持各種定點和浮點格式，包括Bfloat16、16位、半精度、24位和單元塊浮點，也就是說可以根據應用選擇最佳精度來實現精度和性能的均衡。至于在支持的數據類型的支持上是否會有所偏重的問題，Steve告訴他們的eFPGA支持所有的數據類型，這也是FPGA可編程行的好處。

雖然能夠支持所有的數據類型，但數據的存取耗能比計算耗能更多是所有AI芯片都不得不面對的問題。對此，Steve表示：“每個MLP包括一個循環(huán)寄存器文件（Cyclical Register File），用來存儲重用的權重或數據，無需經過LUT，提升處理性能的同時還能降低功耗?！?/p>

另外，對于對機器學習計算密度比較高的應用，如果MLP還不能夠滿足希求，Speedcore Gen4查找表（LUT）可作為補充，可實現比獨立FPGA高兩倍的乘法器。

不僅僅是機器學習性能，Steve還表示：“我們的7nm eFPGA的邏輯單元、走線、路由架構、內存都進行了改進?！本唧w來說，查找表進行了全面的增強，更改包括將ALU的大小加倍、將每個LUT的寄存器數量加倍、支持7位函數和一些8位函數、以及為移位寄存器提供的專用高速連接，縮減面積和功耗并提高性能。另外，路由架構借由一種獨立的專用總線路由結構得到了增強，該路由結構中有專用的總線多路復用器，可有效地創(chuàng)建分布式的、運行時可配置的交換網絡，并且在業(yè)界首次實現了將網絡優(yōu)化應用于FPGA互連。

經過芯片架構的優(yōu)化設計以及在7nm工藝的加持下，Speedcore Gen4性能提高了60％、機器學習性能提升300%、功耗降低50％、芯片面積減少65％。

Speedcore Gen4 FPGA提升

同時推7nm eFPGA IP和獨立FPGA只為AI應用

AI對eFPGA不止于架構方面的改變，Steve表示采用臺積電7nm工藝節(jié)點的Speedcore Gen4將于2019年上半年投入量產，并將在2019年下半年提供用于臺積電16nm和12nm工藝節(jié)點的Speedcore Gen4 eFPGA IP。

注意到，在7nm節(jié)點Achronix不僅提供eFPGA IP，還提供FPGA裸片可與SoC進行封裝，并且還會推出獨立的FPGA器件。至于提供IP為主的Achronix為什么要在7nm節(jié)點推出獨立FPGA，Steve表示：“這更多的是基于用戶需求的考慮。在AI的應用中，數據中心的加速、5G、自動駕駛都有不同的需求。獨立的FPGA更夠讓他們能夠更快的應用在數據中心，實現加速，也能更好地滿足對7nm FPGA芯片用量更小的公司的需求。那些對芯片成本和面積更加敏感，或者想設計出性能更高的AI芯片的公司，則可以選擇IP。當然SoC公司也可以選擇合適的封裝技術將我們的裸片與他們的SoC進行封裝，實現更高的性能?！?/p>

Achronix 亞太區(qū)總經理羅煒亮

當然，硬件是根本，軟件也將在AI中發(fā)揮著越來越重要的作用，許多芯片設計公司在AI時代也開始更多地與軟件公司進行合作，但在發(fā)布會上除了Achronix的ACE設計工具，并沒有其他針對AI的軟件。Steve對此表示：“我們作為一家正在快速發(fā)展但規(guī)模還不夠大的公司，目前我們主要是在硬件層面提供穩(wěn)定且性價比高的不同的芯片，我們最高會做到Libiary層，軟件方面則更多地與合作伙伴協(xié)作?！?/p>

高成本下誰需要7nm eFPGA？

至此，我們已經了解到，無論從架構設計還是需求角度，eFPGA都進行了優(yōu)化，但還有一個非常關鍵的問題就是16nm到7nm制程帶來的性能、功耗的提升在成本面前似乎吸引力不足。雖然Steve表示芯片設計公司購買7nm eFPGA IP的價格與16nm eFPGA IP的價格相比沒有上漲，但是制造成本的陡增還是會讓許多芯片設計公司望而卻步。

Steve表示，7nm eFPGA主要的市場包括對計算性能和價格有要求的數據中心加速、對低功耗計算有要求的邊緣計算、有低功耗和低成本要求的存儲器、低功耗高性能并且需要有可編程性的5G基礎設施、網絡加速/智能網卡、自動駕駛。

7nm eFPGA市場

不過，其中一些應用是潛在市場，另外一些則是驅動Achronix推出7nm eFPGA的關鍵。Steve指出：“目前我們公司營收最重要的兩個應用是5G基礎設施和智能卡（SmartIC），5G對芯片有高性能和低功耗的要求，因此很多以前用FPGA的公司現在轉到了ASIC，但還需要一些靈活性以應對協(xié)議的改變。智能卡則是在數據傳輸前就進行一些數據的處理，我們知道數據量以及數據的復雜程度都在增加，因此這兩個場景對7nm eFGPA都有很大的需求。數據中心以及自動駕駛、存儲都需求明確，至于邊緣計算最合適的場景則需要看市場的發(fā)展。”

還值得一提的是，為了能夠加速數據中心和汽車等應用中機器學習工作負載，Achronix將其eFPGA與Micron的GDDR6存儲器相結合，第四代eFPGA中有8個增強的GDDR6存儲器接口，通過這種聯(lián)合解決方案，可以應對深度神經網絡中包括存儲大數據集、重權重參數和存儲器激活；底層硬件需要在處理器和存儲器之間存儲、處理和快速移動數據等挑戰(zhàn)。

小結

AI算法還在不斷的迭代和發(fā)展，因此通用性更強的CPU、GPU雖然能夠完成相應的算法，但是效率越來越低，成本也越來越高，這推動了芯片架構的革新。我們看到越來越多的AI芯片采用多核異構，通過不同的核心組合提升性能和效率，更好地滿足AI的需求。

從Achronix eFPGA的改進中我們也看到了其在邏輯單元、走線、路由架構方面都進行了改進，并且增加了MLP，為減少數據搬運的耗能，還搭載了片上存儲，同時為了解決深度學習的固有問題，率先在FPGA中支持GDDR6。

AI應用與AI芯片就是在這樣的相互影響下推動AI向前發(fā)展。

本站聲明：本文章由作者或相關機構授權發(fā)布，目的在于傳遞更多信息，并不代表本站贊同其觀點，本站亦不保證或承諾內容真實性等。需要轉載請聯(lián)系該專欄作者，如若文章內容侵犯您的權益，請及時聯(lián)系本站刪除。

換一批

看華為卷積運算芯片如何提高AI資源利用率？

目前，深度神經網絡技術已經成為人工智能領域的代表性算法，基于深度神經網絡技術的字符識別、圖像分類或語音識別等關鍵技術，已經廣泛應用于搜索引擎和智能手機等產品中。

關鍵字：華為卷積運算 ai芯片

[半導體]

進入2.0階段的AI芯片，在云端、邊緣和終端的挑戰(zhàn)

2015年，芯片設計公司數量為736家，一年后，幾乎翻了一倍成為1362家。其中，AI芯片最為耀眼。經過幾年的探索和沉淀，AI的發(fā)展也許已經悄然進入2.0階段。

關鍵字： ai芯片云端終端

[半導體]

解讀地平線一芯多用的AI汽車芯片

芯片作為未來智能汽車的大腦，直接影響智能座艙和自動駕駛，自然也成為智能汽車時代的必爭之地。智能汽車面對非常復雜的環(huán)境，感知、融合、決策需要巨大的計算能力，而傳統(tǒng)的通用計算平臺的算力功耗比TOPS/W居高不下，而且算力的利...

關鍵字： ai芯片地平線特斯拉

[半導體]

車載AI芯片大戰(zhàn)

作為“第三生活空間”的未來車輛，使用場景必將更加豐富。而車輛內外部需要交互才能實現的各種功能，這必然意味著大量的數據和智能運算，而芯片將是汽車核心技術生態(tài)循環(huán)的基石。

關鍵字：汽車 ai芯片智能

[模擬技術]

格蘭仕聯(lián)手多家企業(yè)建“中國芯”開源芯片生態(tài)合作聯(lián)盟

9月28日，格蘭仕在順德總部宣布明年初將流片AI芯片，其合作伙伴賽昉科技同時發(fā)布了基于RISC-V開源架構的人工智能視覺處理平臺，并與多家企業(yè)聯(lián)手建立了“中國芯”開源芯片生態(tài)合作聯(lián)盟。格蘭仕與惠而浦有接近20年的戰(zhàn)略合作...

關鍵字：格蘭仕 ai芯片家電

[半導體]

自動駕駛國內外發(fā)展差異較大，國產AI芯片如何迎風成長

隨著5G時代到來以及AI技術的興起，智能化成為了傳統(tǒng)車企轉型升級的目標和需求導向，自動駕駛在眾多汽車應用場景中廣受關注，在對AI芯片提出更高挑戰(zhàn)的同時，也增加了AI芯片的需求。在自動駕駛領域，目前全球已有英偉達、英特爾等...

關鍵字： ai芯片自動駕駛國產

[模擬]

百度大腦6.0發(fā)布，締造AI基礎底座

人工智能是第四代工業(yè)革命的核心科技，是國家推進‘新基建’重點建設的新型基礎設施，百度建設的AI基礎設施正是百度大腦，能夠讓各行各業(yè)更高效、更全面、更深入地應用人工智能技術，加快產業(yè)智能化進程。

關鍵字：人工智能 ai芯片百度

[半導體]

9月15日，“啟明920”AI加速芯片重磅發(fā)布

8月20日，“啟明920”由清華大學交叉信息研究院馬愷聲教授領銜的西安交叉核心院芯片中心研發(fā)成功并完成測試，這在我國芯片領域具有重大意義。而在9月15日，2020西安全球硬科技創(chuàng)新大會分論壇——“下一代AI芯片產業(yè)發(fā)布暨...

關鍵字： ai芯片自動駕駛國產

[充電吧]

Edge將淘汰云作為AI芯片市場的驅動力

[]隨著人們越來越關注低延遲、數據隱私以及低成本、超節(jié)能的人工智能芯片組的可用性，edge人工智能（AI）芯片組市場有望在2025年首次超過云AI芯片組市場。根據全球科技市場咨詢公司ABI Res

關鍵字： ai芯片 edge 云計算人工智能

[人工智能AI]

AI芯片創(chuàng)企Graphcore未來將叫板英特爾

　　據外媒（cnbc）報道，一家生產AI芯片的創(chuàng)企Graphcore籌集了3000萬美元資金。這些資金將幫助它在未來芯片領域同傳統(tǒng)豪強英特爾和英偉達展開競爭。　　這家英國公司計劃明年大

關鍵字： ai芯片無人駕駛機器學習

摩爾定律漸漸失效 eFPGA將加速AI發(fā)展

看華為卷積運算芯片如何提高AI資源利用率？

進入2.0階段的AI芯片，在云端、邊緣和終端的挑戰(zhàn)

解讀地平線一芯多用的AI汽車芯片

車載AI芯片大戰(zhàn)

格蘭仕聯(lián)手多家企業(yè)建“中國芯”開源芯片生態(tài)合作聯(lián)盟

自動駕駛國內外發(fā)展差異較大，國產AI芯片如何迎風成長

百度大腦6.0發(fā)布，締造AI基礎底座

9月15日，“啟明920”AI加速芯片重磅發(fā)布

Edge將淘汰云作為AI芯片市場的驅動力

AI芯片創(chuàng)企Graphcore未來將叫板英特爾

聯(lián)詠科技正研發(fā)AI加速芯片用以提高智能手機等邊緣計算能力

世界最大AI芯片升級，采用7nm工藝

百萬美元一片 7nm工藝制造巨無霸AI芯片二代長啥樣？

英特爾明年推專用AI芯片，提前卡位搶攻人工智能

海寧制造全球首款超高性能異構AI芯片，震驚業(yè)界！

“中國芯”新突破！

實例！詳解FPGA如何實現FP16格式點積級聯(lián)運算

AI芯片的幾種選擇，你更看好哪個？

英特爾由“遲來者”向“領先者”華麗轉身,與臉譜合作研發(fā)AI芯片

有嗅覺的AI芯片,可識別爆炸物氣味