日本黄色一级经典视频|伊人久久精品视频|亚洲黄色色周成人视频九九九|av免费网址黄色小短片|黄色Av无码亚洲成年人|亚洲1区2区3区无码|真人黄片免费观看|无码一级小说欧美日免费三级|日韩中文字幕91在线看|精品久久久无码中文字幕边打电话

當前位置:首頁 > 嵌入式 > 《嵌入式技術與智能系統(tǒng)》
[導讀]隨著人工智能技術與嵌入式硬件的快速發(fā)展,嵌入式人工智能系統(tǒng)(如移動機器人、自動駕駛汽車和星載無人機)在工業(yè)自動化、交通運輸和航空航天等關鍵領域變得越來越重要。作為集成CPU、GPU、NPU等多種異構處理器單元的智能實時系統(tǒng),其核心任務是通過計算密集型的深度神經網絡(DNN)實現環(huán)境感知、決策控制等復雜功能,同時面臨嚴格的時間約束與資源瓶頸。文章從網絡模型在嵌入式系統(tǒng)加速推理優(yōu)化的角度,將圍繞DNN模型輕量化、推理加速優(yōu)化與動態(tài)任務調度三個方面,詳細分析嵌入式智能系統(tǒng)的國內外研究現狀。

1. 引言

深度神經網絡模型輕量化技術是突破人工智能應用在嵌入式系統(tǒng)部署瓶頸的關鍵路徑,其通過算法重構與參數壓縮的雙重優(yōu)化,在可接受網絡精度損失范圍內構建高效推理模型。在算法層面,知識蒸餾技術實現復雜模型向輕量化架構的能力遷移,配合模塊化網絡設計降低結構冗余;參數剪枝(結構化/非結構化)、量化(二值化/混合精度)及低秩分解等方法系統(tǒng)性地減少模型計算量[1]。硬件適配層面則通過稀疏矩陣加速器、多分支網絡架構等定制化設計,提升輕量化模型在嵌入式異構平臺的能效表現,形成算法–硬件協(xié)同優(yōu)化方法[2]。

面向大語言模型的嵌入式部署需求,輕量化技術呈現細粒度創(chuàng)新趨勢:一方面,根據量化所應用的不同階段,可以將量化方法分為三類:量化感知訓練(QAT, Quantization-Aware Training)、量化感知微調(QAF, Quantization-Aware Fine-tuning)及訓練后量化(PTQ, Post-Training Quantization) [3]。QAT在模型的訓練過程中采用量化,QAF在預訓練模型的微調階段應用量化,PTQ在模型完成訓練后對其進行量化,并結合硬件特性開發(fā)出極限低比特的整型(如INT4、INT8)壓縮方案;另一方面,混合專家模型等異構架構革新了模型部署范式,通過大小模型動態(tài)協(xié)作實現推理效率的階躍式提升[4]。此類技術使百億參數級模型在嵌入式設備端的實時推理成為可能,推動嵌入式系統(tǒng)向智能認知層級跨越。

2. 嵌入式智能系統(tǒng)推理優(yōu)化加速技術發(fā)展現狀

當前嵌入式智能系統(tǒng)的網絡模型部署主要集中在推理加速優(yōu)化,其技術策略在保持模型精度的前提下提升運行效率。核心優(yōu)化方向包括網絡模型編譯優(yōu)化、異構資源調度以及存儲計算優(yōu)化。英偉達的TensorRT推理框架通過算子融合與內存優(yōu)化技術有效提升了推理速度[5]。關于網絡模型推理任務在異構計算單元上的分配方法,當前研究工作采用模型并行、數據并行和流水線并行等模型的推理加速方法,進一步提升了嵌入式系統(tǒng)上的模型推理性能[6]。

在大語言模型在嵌入式系統(tǒng)上優(yōu)化部署方面,伊利諾伊大學針對大模型輸出長度不確定導致的端到端推理時間不可預測問題,提出了一種推測性最短作業(yè)優(yōu)先調度器。該方案利用輕量級代理模型預測大模型輸出序列長度,有效解決了傳統(tǒng)先到先服務調度的隊首阻塞問題[7]。英偉達開發(fā)了動態(tài)內存壓縮技術,通過在推理過程中在線壓縮鍵值緩存,成功緩解因輸入序列長度與批處理規(guī)模線性增長引發(fā)的緩存膨脹問題[8]。首爾大學提出的細粒度調度機制實現了迭代級連續(xù)批處理,可通過動態(tài)整合多個大模型請求顯著提升推理效率[9]。針對Transformer架構的計算特性,學界提出了KV緩存復用、FlashAttention以及PageAttention等加速方法[10],并結合投機采樣與混合專家模型技術,在保證模型精度的前提下實現推理效率突破。

國內研究團隊在模型推理加速領域取得顯著進展。北京郵電大學在片上神經處理單元實現高效設備端大模型預填充加速的系統(tǒng),該系統(tǒng)通過在提示供工程、張量和模型三個層次上優(yōu)化了大模型在端側設備上的推理,從而顯著減少了推理延遲[11]。東北大學在邊端系統(tǒng)推理加速方面積累了較多的系統(tǒng)部署優(yōu)化基礎,其中GPU并行加速方面研究了GPU內部異構計算核心的并行策略,提升了系統(tǒng)整理利用率和任務吞吐量[12]。國內人工智能團隊DeepSeek通過創(chuàng)新的多頭隱式注意力(MLA)設計,突破了現有優(yōu)化方案的瓶頸,使得模型在存儲和計算效率上達到了新的高度[13]。

3. 動態(tài)智能任務實時調度方法發(fā)展現狀

動態(tài)神經網絡通過運行時自適應調整模型結構或參數,成為實時系統(tǒng)應對計算資源約束的關鍵技術。其核心優(yōu)勢在于能夠根據輸入特征(如圖像尺寸、批處理規(guī)模)及系統(tǒng)約束(如截止期限、資源限制),如圖1所示,動態(tài)神經網絡通過靈活調整網絡壓縮率、分支路徑或輸出節(jié)點,實現負載的動態(tài)適配[14]-[16]。例如,通過動態(tài)調節(jié)輸入圖像分辨率或網絡分支選擇,模型可在保證模型精度的同時顯著降低推理延遲,滿足工業(yè)物聯(lián)網、自動駕駛等場景的實時性需求。

Figure 1. Dynamic neural network-based workload adjustment method

1. 動態(tài)神經網絡調節(jié)計算負載方法

在動態(tài)推理DNN任務方面,學術界提出了多維度的系統(tǒng)調度方法。美國得克薩斯大學所提出的近似網絡,量化了計算負載縮減與精度/時延的關聯(lián)模型,支持運行時動態(tài)負載調整[17] [18]。韓國慶熙大學研究者結合GPU最壞執(zhí)行時間分析與自適應圖像縮放技術,設計了動態(tài)路徑切換機制,在任務截止期約束下將精度損失降至最低[19] [20]。工業(yè)界則聚焦輕量化動態(tài)架構創(chuàng)新,如三星公司提出的分支條件神經網絡(BPNet)實現了系統(tǒng)化的時間與精度權衡[21]。蘋果公司開發(fā)的UPSCALE通道剪枝策略通過權重重排序技術,實現了無顯著時延代價的動態(tài)網絡裁剪[22]。微軟提出基于全局的大批量LLM推理優(yōu)化前綴共享和面向吞吐量的令牌批處理方法,通過全局前綴識別與請求調度重組、內存中心的分批處理及水平融合注意力核優(yōu)化,實現共享前綴的KV上下文高效復用、預填充與解碼階段的GPU負載均衡,顯著提升工業(yè)場景下大批量LLM推理效率[23]。北卡羅萊納大學提出的SubFlow框架從模型結構層面出發(fā),利用動態(tài)誘導子圖策略在運行時根據任務截止期自適應選擇子網絡路徑,實現了可變時間預算下的低時延高精度推理,為網絡任務動態(tài)推理提供了新思路[24]。韓國漢陽大學提出的Exegpt系統(tǒng)則從系統(tǒng)層面出發(fā),引入約束感知資源調度機制,通過聯(lián)合優(yōu)化批量大小與GPU分配,在延遲約束下實現高吞吐并發(fā)推理,體現了動態(tài)推理在資源調度與QoS保障方面的潛力[25]。

國內學者在動態(tài)自適應負載建模與部署優(yōu)化方面取得顯著進展。清華大學團隊系統(tǒng)闡述了動態(tài)神經網絡的理論框架[16]。上海交通大學通過擴展深度學習編譯器實現了動態(tài)網絡的高效推理支持[26]。上??萍即髮W進一步提出帶時間約束的自適應任務模型,構建了兼顧服務質量與實時性的調度優(yōu)化框架[1]。西北工業(yè)大學則聚焦環(huán)境自適應技術,通過動態(tài)調整模型參數降低資源消耗,為智能物聯(lián)網系統(tǒng)提供高效解決方案[27]。香港中文大學利用深度學習編譯技術在GPU上實現多DNN推理任務調度,在不損失網絡精度的情況下,通過神經網絡圖和內核優(yōu)化,提高GPU并行性,減少多任務之間的資源爭用[28]。東北大學在異構CPU-GPU平臺上的多DNN調度方面[29],采用有效的CUDA流優(yōu)先級管理方法實現了不同優(yōu)先級多DNN任務在共享GPU上的實時調度策略。

4. 發(fā)展趨勢與展望

隨著大模型逐步滲透至邊緣端,主流技術的發(fā)展推動了模型輕量化和壓縮技術的突破。通過模型壓縮、量化和知識蒸餾等手段,使得模型在資源受限的嵌入式設備(如手機和機器人)上實現高效推理和實時響應,同時配合實時調度技術,確保動態(tài)任務處理能力。2025年被視為“具身智能元年”,嵌入式系統(tǒng)借助輕量化和壓縮技術,助力人形機器人在工業(yè)、醫(yī)療、家庭和自動駕駛等場景中完成復雜操作與實時決策,體現了主流技術在物理交互領域的應用優(yōu)勢和調度能力。原生多模態(tài)大模型整合視覺、音頻、文本及3D數據,通過端到端訓練實現數據對齊,并借助低功耗AI芯片和邊緣計算平臺降低推理延遲。此過程中,模型輕量化與實時調度技術是實現綜合感知與實時處理的關鍵支撐。未來嵌入式智能系統(tǒng)將向垂直領域定制化發(fā)展,例如醫(yī)療診斷、農業(yè)機器人和消費電子。主流技術的發(fā)展促使模型更輕量、壓縮更高效,同時借助實時調度實現自主智能體的動態(tài)任務管理,推動“All-in-One”超級應用的崛起,實現多場景智能服務。總之,嵌入式智能系統(tǒng)的發(fā)展正依托主流技術的模型輕量化、壓縮技術及實時調度能力,實現高效推理、多模態(tài)融合和精細化物理交互。未來,這些技術將在垂類應用與自主智能體領域發(fā)揮核心作用。

基金項目

本文受山東省自然科學基金資助項目ZR2024QF052。

參考文獻

[1] Wang, W., Chen, W., Luo, Y., Long, Y., Lin, Z., Zhang, L., et al. (2024) Model Compression and Efficient Inference for Large Language Models: A Survey. arXiv: 2402.09748.
[2] Liu, D., Kong, H., Luo, X., Liu, W. and Subramaniam, R. (2022) Bringing AI to Edge: From Deep Learning’s Perspective. Neurocomputing, 485, 297-320. [Google Scholar] [CrossRef] 
[3] Zhou, Z., Ning, X., Hong, K., et al. (2024) A Survey on Efficient Inference for Large Language Models.
[4] Dai, D., Deng, C., Zhao, C., Xu, R.X., Gao, H., Chen, D., et al. (2024) DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-Of-Experts Language Models. Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), Bangkok, 11-16 August 2024, 1280-1297. [Google Scholar] [CrossRef] 
[5] NVIDIA. (2024). TensorRT-LLM [Computer Software]. GitHub.
[6] Ascend. (2024). AscendSpeed [Computer Software]. GitHub.
[7] Qiu, H., Mao, W., Patke, A., et al. (2024) Efficient Interactive LLM Serving with Proxy Model-Based Sequence Length Prediction. arXiv: 2404.08509.
[8] Nawrot, P., ?ańcucki, A., Chochowski, M., et al. (2024) Dynamic Memory Compression: Retrofitting LLMs for Accelerated Inference. arXiv: 2403.09636.
[9] Yu, G.I., Jeong, J.S., Kim, G.W., et al. (2022) Orca: A Distributed Serving System for {Transformer-Based} Generative Models. 16th USENIX Symposium on Operating Systems Design and Implementation (OSDI 22), 521-538.
[10] Kwon, W., Li, Z., Zhuang, S., Sheng, Y., Zheng, L., Yu, C.H., et al. (2023) Efficient Memory Management for Large Language Model Serving with PagedAttention. Proceedings of the 29th Symposium on Operating Systems Principles, Koblenz, 23-26 October 2023, 611-626. [Google Scholar] [CrossRef] 
[11] Xu, D., Zhang, H., Yang, L., et al. (2024) Empowering 1000 Tokens/Second On-Device LLM Prefilling with MLLM-NPU. arXiv: 2407.05858v1.
[12] Pang, W., Jiang, X., Liu, S., Qiao, L., Fu, K., Gao, L., et al. (2024) Control Flow Divergence Optimization by Exploiting Tensor Cores. Proceedings of the 61st ACM/IEEE Design Automation Conference, San Francisco, 23-27 June 2024, 1-6. [Google Scholar] [CrossRef] 
[13] Meng, F., Yao, Z. and Zhang, M. (2025) TransMLA: Multi-Head Latent Attention Is All You Need. arXiv: 2502.07864.
[14] 王子曦, 邵培南, 鄧暢. 異構并行平臺的Caffe推理速度提升方法[J]. 計算機系統(tǒng)應用, 2022, 31(2): 220-226.
[15] 尚紹法, 蔣林, 李遠成, 等. 異構平臺下卷積神經網絡推理模型自適應劃分和調度方法[J]. 計算機應用, 2023, 43(9): 2828-2835.
[16] Han, Y., Huang, G., Song, S., Yang, L., Wang, H. and Wang, Y. (2022) Dynamic Neural Networks: A Survey. IEEE Transactions on Pattern Analysis and Machine Intelligence, 44, 7436-7456. [Google Scholar] [CrossRef] [PubMed]
[17] Bo, Z., Guo, C., Leng, C., Qiao, Y. and Wang, H. (2024) RTDeepEnsemble: Real-Time DNN Ensemble Method for Machine Perception Systems. 2024 IEEE 42nd International Conference on Computer Design (ICCD), Milan, 18-20 November 2024, 191-198. [Google Scholar] [CrossRef] 
[18] Han, Y., Liu, Z., Yuan, Z., Pu, Y., Wang, C., Song, S., et al. (2024) Latency-Aware Unified Dynamic Networks for Efficient Image Recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 46, 7760-7774. [Google Scholar] [CrossRef] [PubMed]
[19] Heo, S., Jeong, S. and Kim, H. (2022) RTScale: Sensitivity-Aware Adaptive Image Scaling for Real-Time Object Detection. 34th Euro-Micro Conference on Real-Time Systems, Modena, 5-8 July 2022, 1-22.
[20] Heo, S., Cho, S., Kim, Y. and Kim, H. (2020) Real-Time Object Detection System with Multi-Path Neural Networks. 2020 IEEE Real-Time and Embedded Technology and Applications Symposium (RTAS), Sydney, 21-24 April 2020, 174-187. [Google Scholar] [CrossRef] 
[21] Park, K., Oh, C. and Yi, Y. (2020) BPNet: Branch-Pruned Conditional Neural Network for Systematic Time-Accuracy Tradeoff. 2020 57th ACM/IEEE Design Automation Conference (DAC), San Francisco, 20-24 July 2020, 1-6. [Google Scholar] [CrossRef] 
[22] Wan, A., Hao, H., Patnaik, K., et al. (2023) UPSCALE: Unconstrained Channel Pruning. arXiv: 2307.08771.
[23] Zheng, Z., Ji, X., Fang, T., Zhou, F., Liu, C. and Peng, G. (2024) BatchLLM: Optimizing Large Batched LLM Inference with Global Prefix Sharing and Throughput-Oriented Token Batching. arXiv: 2412.03594.
[24] Lee, S. and Nirjon, S. (2020) SubFlow: A Dynamic Induced-Subgraph Strategy toward Real-Time DNN Inference and Training. 2020 IEEE Real-Time and Embedded Technology and Applications Symposium (RTAS), Sydney, 21-24 April 2020, 15-29. [Google Scholar] [CrossRef] 
[25] Oh, H., Kim, K., Kim, J., Kim, S., Lee, J., Chang, D., et al. (2024) ExeGPT: Constraint-Aware Resource Scheduling for LLM Inference. Proceedings of the 29th ACM International Conference on Architectural Support for Programming Languages and Operating SystemsVolume 2, La Jolla, 27 April-1 May 2024, 369-384. [Google Scholar] [CrossRef] 
[26] Cui, W., Han, Z., Ouyang, L., et al. (2023) Optimizing Dynamic Neural Networks with Brainstorm. 17th USENIX Symposium on Operating Systems Design and Implementation (OSDI 23), Boston,10-12 July 2023, 797-815.
[27] Wang, H., Zhou, X., Yu, Z., Liu, S., Guo, B., Wu, Y., et al. (2020) Context-aware Adaptation of Deep Learning Models for IoT Devices. Scientia Sinica Informationis, 50, 1629-1644. [Google Scholar] [CrossRef] 
[28] Zhao, Z., Ling, N., Guan, N. and Xing, G. (2022) Aaron: Compile-Time Kernel Adaptation for Multi-DNN Inference Acceleration on Edge GPU. Proceedings of the 20th ACM Conference on Embedded Networked Sensor Systems, Boston, 6-9 November 2022, 802-803. [Google Scholar] [CrossRef] 
[29] Pang, W., Luo, X., Chen, K., Ji, D., Qiao, L. and Yi, W. (2023) Efficient CUDA Stream Management for Multi-DNN Real-Time Inference on Embedded GPUs. Journal of Systems Architecture, 139, Article ID: 102888. [Google Scholar] [CrossRef] 
本站聲明: 本文章由作者或相關機構授權發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內容真實性等。需要轉載請聯(lián)系該專欄作者,如若文章內容侵犯您的權益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

LED驅動電源的輸入包括高壓工頻交流(即市電)、低壓直流、高壓直流、低壓高頻交流(如電子變壓器的輸出)等。

關鍵字: 驅動電源

在工業(yè)自動化蓬勃發(fā)展的當下,工業(yè)電機作為核心動力設備,其驅動電源的性能直接關系到整個系統(tǒng)的穩(wěn)定性和可靠性。其中,反電動勢抑制與過流保護是驅動電源設計中至關重要的兩個環(huán)節(jié),集成化方案的設計成為提升電機驅動性能的關鍵。

關鍵字: 工業(yè)電機 驅動電源

LED 驅動電源作為 LED 照明系統(tǒng)的 “心臟”,其穩(wěn)定性直接決定了整個照明設備的使用壽命。然而,在實際應用中,LED 驅動電源易損壞的問題卻十分常見,不僅增加了維護成本,還影響了用戶體驗。要解決這一問題,需從設計、生...

關鍵字: 驅動電源 照明系統(tǒng) 散熱

根據LED驅動電源的公式,電感內電流波動大小和電感值成反比,輸出紋波和輸出電容值成反比。所以加大電感值和輸出電容值可以減小紋波。

關鍵字: LED 設計 驅動電源

電動汽車(EV)作為新能源汽車的重要代表,正逐漸成為全球汽車產業(yè)的重要發(fā)展方向。電動汽車的核心技術之一是電機驅動控制系統(tǒng),而絕緣柵雙極型晶體管(IGBT)作為電機驅動系統(tǒng)中的關鍵元件,其性能直接影響到電動汽車的動力性能和...

關鍵字: 電動汽車 新能源 驅動電源

在現代城市建設中,街道及停車場照明作為基礎設施的重要組成部分,其質量和效率直接關系到城市的公共安全、居民生活質量和能源利用效率。隨著科技的進步,高亮度白光發(fā)光二極管(LED)因其獨特的優(yōu)勢逐漸取代傳統(tǒng)光源,成為大功率區(qū)域...

關鍵字: 發(fā)光二極管 驅動電源 LED

LED通用照明設計工程師會遇到許多挑戰(zhàn),如功率密度、功率因數校正(PFC)、空間受限和可靠性等。

關鍵字: LED 驅動電源 功率因數校正

在LED照明技術日益普及的今天,LED驅動電源的電磁干擾(EMI)問題成為了一個不可忽視的挑戰(zhàn)。電磁干擾不僅會影響LED燈具的正常工作,還可能對周圍電子設備造成不利影響,甚至引發(fā)系統(tǒng)故障。因此,采取有效的硬件措施來解決L...

關鍵字: LED照明技術 電磁干擾 驅動電源

開關電源具有效率高的特性,而且開關電源的變壓器體積比串聯(lián)穩(wěn)壓型電源的要小得多,電源電路比較整潔,整機重量也有所下降,所以,現在的LED驅動電源

關鍵字: LED 驅動電源 開關電源

LED驅動電源是把電源供應轉換為特定的電壓電流以驅動LED發(fā)光的電壓轉換器,通常情況下:LED驅動電源的輸入包括高壓工頻交流(即市電)、低壓直流、高壓直流、低壓高頻交流(如電子變壓器的輸出)等。

關鍵字: LED 隧道燈 驅動電源
關閉