人工智能處理器和加速器到底是什么?
AI 加速器是一種專用硬件組件,旨在增強人工智能 (AI)和機器學習 (ML)應用程序的性能。與傳統(tǒng)處理器不同,AI 加速器針對 AI 任務(例如深度學習和神經網絡處理)的獨特計算要求進行了優(yōu)化。這些加速器對于加速AI 工作負載、提高效率和實現(xiàn)實時數(shù)據(jù)處理至關重要,因此對于各種行業(yè)和應用程序來說都是必不可少的。
AI 加速器有多種形式,包括圖形處理單元 (GPU)、張量處理單元 (TPU)、現(xiàn)場可編程門陣列 (FPGA)和專用集成電路 (ASIC)。每種類型的加速器都旨在處理特定類型的 AI 工作負載,提供不同級別的性能、靈活性和能效。最常見的有:
GPU:GPU 最初設計用于圖形渲染,擅長同時執(zhí)行多項任務,也就是所謂的并行處理,使其成為處理 AI 應用程序所需的大規(guī)模計算的理想選擇。
TPU:TPU 由谷歌開發(fā),專為張量運算而設計,張量運算是一種涉及多維數(shù)組的數(shù)學運算,是深度學習算法的基礎。
FPGA:這些是可配置的硬件組件,可以進行編程來執(zhí)行特定任務,在性能和靈活性之間實現(xiàn)平衡。
ASIC:專為特定應用而定制,ASIC 為專用 AI 任務提供最高的性能和效率,但缺乏 GPU 和 FPGA 的靈活性。
AI加速器芯片(又稱“AI芯片”)是專門的微電子硬件設備,可加速和優(yōu)化AI/機器學習軟件模型的處理。在這里,我們的分析重點是圖形處理器之外的架構。AI發(fā)展的速度可能取決于新的芯片材料和設計。此外,地緣政治緊張局勢也會和芯片制造行業(yè)互相影響,美國《芯片與科學法》是恢復美國在半導體領域領導地位的關鍵努力。在短期內,邊緣應用可能會發(fā)生重大變革,例如無人機系統(tǒng)上的高保真計算機視覺等。最終,隨著芯片變得越來越“類似大腦”,芯片的能力將開始與人類大腦相匹敵,甚至高度復雜的模型如大語言模型,有朝一日也可以在小尺寸、低重量和低功耗的設備上運行。AI芯片有幾種類型,通常需要在能效和可運行模型的靈活性之間進行權衡。隨著芯片晶體管達到物理尺寸的極限,摩爾定律放緩,其他技術正在經歷一場創(chuàng)新的復興,并有望徹底改變AI行業(yè)。
人工智能加速器(AI accelerator),又稱神經處理單元(NPU,neural processing unit),是一類專用于人工智能應用的硬件加速單元或計算系統(tǒng),主要為人工神經網絡、計算機視覺、語音識別、機器學習和其他人工智能技術算法提供硬件加速。 NPU按應用分,主要有:目標檢測、面部檢測識別、手勢識別、語音識別、聲音和圖像識別、噪聲消除等;NPU按市場分,主要有智能家居、消費電子、醫(yī)療保健、智能相機、物聯(lián)網、無人機、機器人、AV/VR、汽車、邊緣計算等。AI加速器和神經處理單元(NPU)的集成,為微控制器(MCU)和微處理器(MPU)帶來了顯著的性能提升。一些廠商都在積極發(fā)展這一領域,推出了一些創(chuàng)新的產品,以滿足市場對于高效能邊緣AI處理能力的需求。以下是一些集成了AI加速器或神經處理單元(NPU)的MCU和MPU廠商和產品,及具有NPU的IP公司。
數(shù)據(jù)中心是互聯(lián)網的后端。無論是 Netflix 還是 Google,所有大公司都利用數(shù)據(jù)中心及其托管的計算機系統(tǒng)向最終用戶提供數(shù)字服務。隨著企業(yè)的重點轉向高級 AI 工作負載,數(shù)據(jù)中心傳統(tǒng)的以 CPU 為中心的服務器正在通過集成新的專用芯片或“協(xié)處理器”而得到增強。
從本質上講,這些協(xié)處理器背后的想法是引入某種附加組件來增強服務器的計算能力。這使它們能夠處理 AI 訓練、推理、數(shù)據(jù)庫加速和網絡功能等工作負載的計算需求。在過去幾年中,以 Nvidia 為首的 GPU 已成為協(xié)處理器的首選,因為它們能夠以無與倫比的速度處理大量數(shù)據(jù)。根據(jù)Futurum Group的一項研究,由于需求增加,去年 GPU 占數(shù)據(jù)中心內支持 AI 用例的協(xié)處理器的 74% 。
研究顯示,GPU 的主導地位預計只會增長,到 2028 年,該類別的收入將以每年 30% 的速度增長,達到 1020 億美元。但問題是:雖然 GPU 憑借其并行處理架構成為加速各種大規(guī)模 AI 工作負載(如訓練和運行大規(guī)模、萬億參數(shù)語言模型或基因組測序)的強大伙伴,但它們的總體擁有成本可能非常高。例如,Nvidia 的旗艦GB200“超級芯片”結合了 Grace CPU 和兩個 B200 GPU,預計成本在 60,000 至 70,000 美元之間。一臺裝有 36 個這種超級芯片的服務器估計成本約為 200 萬美元。
雖然這在某些情況下可能有效,例如大型項目,但并非適用于每家公司。許多企業(yè) IT 經理都希望采用新技術來支持選定的低到中等密集型 AI 工作負載,并特別關注總體擁有成本、可擴展性和集成度。畢竟,大多數(shù) AI 模型(深度學習網絡、神經網絡、大型語言模型等)都處于成熟階段,需求正在轉向 AI 推理和增強特定工作負載(如圖像識別、推薦系統(tǒng)或對象識別)的性能,同時保持高效。
這正是芯片制造商、初創(chuàng)公司和云提供商正在構建的專用 AI 處理器和加速器的新興領域。
從本質上講,AI 處理器和加速器是位于服務器 CPU 生態(tài)系統(tǒng)中的芯片,專注于特定的 AI 功能。它們通常圍繞三種關鍵架構:專用集成電路 (ASIC)、現(xiàn)場可編程門陣列 (FPGA) 和最新創(chuàng)新的神經處理單元 (NPU)。ASIC 和 FPGA 已經存在了相當長一段時間,可編程性是兩者之間的唯一區(qū)別。ASIC 是為特定任務(可能與 AI 相關,也可能不相關)從頭定制的,而 FPGA 可以在后期重新配置以實現(xiàn)自定義邏輯。NPU 與兩者的區(qū)別在于,NPU 是一種專用硬件,只能加速 AI/ML 工作負載,如神經網絡推理和訓練。
Futurum 集團首席執(zhí)行官 Daniel Newman 告訴 Venturebeat:“加速器往往能夠單獨執(zhí)行任何功能,有時采用晶圓級或多芯片 ASIC 設計,它們能夠處理一些不同的應用程序。NPU 是專用芯片(通常是系統(tǒng)的一部分)的一個很好的例子,它可以處理許多矩陣數(shù)學和神經網絡用例以及使用更少功率的各種推理任務。”這些加速器,尤其是為特定應用而構建的 ASIC 和 NPU,在成本和功耗方面比 GPU 更高效。IBM 云和行業(yè)平臺總經理 Rohit Badlaney 告訴 VentureBeat:“GPU 設計主要以算術邏輯單元 (ALU) 為中心,這樣它們就可以同時執(zhí)行數(shù)千次計算,而 AI 加速器設計主要以張量處理器核心 (TPC) 或單元為中心。一般來說,AI 加速器的性能與 GPU 性能的比較取決于該設計的固定功能?!?
目前,IBM 采用混合云方法,在整個堆棧中使用多個 GPU 和 AI 加速器,包括來自 Nvidia 和 Intel 的產品,為企業(yè)提供選擇,以滿足其獨特工作負載和應用的需求 - 高性能和高效率。“我們的全棧解決方案旨在幫助改變企業(yè)、開發(fā)人員和開源社區(qū)構建和利用生成式人工智能的方式。人工智能加速器是我們認為對希望部署生成式人工智能的客戶非常有益的產品之一,"Badlaney 說。他補充說,雖然 GPU 系統(tǒng)最適合大型模型訓練和微調,但加速器同樣可以處理許多人工智能任務,而且成本更低。
例如,IBM 云虛擬服務器使用了英特爾的Gaudi 3加速器,并配備了專為推理和大內存需求設計的定制軟件棧。該公司還計劃通過由多個系統(tǒng)組成的小型集群,將加速器用于微調和小型訓練工作負載。“人工智能加速器和 GPU 可以有效地用于一些類似的工作負載,例如從 LLM 和擴散模型(像穩(wěn)定擴散這樣的圖像生成)到標準物體識別、分類和語音配音。不過,人工智能加速器和 GPU 之間的優(yōu)勢和差異完全取決于硬件提供商的設計。Badlaney 解釋說:"例如,Gaudi 3 AI 加速器的設計旨在顯著提升計算能力、內存帶寬和基于架構的能效。





