當6 TOPS不再是極限：米爾RK3576 + Hailo-8，讓高幀率攝像頭真正“實時”

時間：2026-04-03 10:15:55

關(guān)鍵字：邊緣計算算力開發(fā)板

手機看文章

掃描二維碼
隨時隨地手機看文章

[導(dǎo)讀]在邊緣計算領(lǐng)域，算力與實時性之間的博弈從未停止。近期基于米爾MYD-LR3576 開發(fā)板+ PCIe M.2 接口 Hailo-8 算力卡進行了一系列深度測試，一組實測數(shù)據(jù)，或許能幫你重新審視邊緣 AI 的“性能天花板”。

在邊緣計算領(lǐng)域，算力與實時性之間的博弈從未停止。近期基于米爾MYD-LR3576 開發(fā)板+ PCIe M.2 接口 Hailo-8 算力卡進行了一系列深度測試，一組實測數(shù)據(jù)，或許能幫你重新審視邊緣 AI 的“性能天花板”。

圖：米爾基于RK3576開發(fā)板

一、RK3576 的算力極限在哪里?

RK3576 內(nèi)置 NPU 由 2 核組成，具備 6 TOPS 算力，在常規(guī)輕量級模型推理中表現(xiàn)不俗。但在實際項目中，我們通過多路并發(fā)測試發(fā)現(xiàn)，當 4 路 YOLOv5 模型同時推理時，NPU 負載率已超過 75%。一旦增加到第5路，整體延遲急劇飆升，系統(tǒng)響應(yīng)明顯劣化。

在單路推理場景下，YOLOv5(640×640)耗時約 26ms，折算下來僅能穩(wěn)定處理 30fps 的攝像頭數(shù)據(jù)。

這意味著什么?

當攝像頭升級到 60fps 甚至 120fps 的高幀率場景時，單靠 RK3576 的 NPU 已經(jīng)無法做到逐幀實時處理。要么丟幀，要么延遲不斷累積——這在工業(yè)高速檢測、智慧交通、機器人導(dǎo)航等對實時性要求嚴苛的應(yīng)用中，是不可接受的。

二、Hailo-8算力卡介紹

Hailo-8 是一款專為邊緣 AI 推理設(shè)計的專用加速器，擁有26TOPS算力，面向嵌入式設(shè)備和低功耗場景，提供高效、可擴展的 AI 計算能力。

為什么 Hailo-8 能在相同功耗下實現(xiàn)數(shù)倍于傳統(tǒng) NPU 的性能?答案不在算力數(shù)字，而在架構(gòu)：

1. 數(shù)據(jù)流架構(gòu)(Dataflow Architecture)

傳統(tǒng) NPU 像“工廠”從倉庫(DDR)來回搬運數(shù)據(jù)，效率受限于搬運速度。而 Hailo-8 的數(shù)據(jù)流架構(gòu)讓數(shù)據(jù)在芯片內(nèi)部“流水線式”流動，大幅減少對外部內(nèi)存的依賴。簡單說：算力不再是瓶頸，內(nèi)存帶寬才是——而 Hailo-8 繞開了這個瓶頸。

2. 無外部 DRAM 依賴

Hailo-8 不依賴外部大帶寬內(nèi)存，推理過程中幾乎不與 CPU/NPU 爭搶 DDR 資源。在多路視頻并發(fā)場景下，這意味著系統(tǒng)不會因為“搶內(nèi)存”而掉幀，整體穩(wěn)定性大幅提升。

三、實測數(shù)據(jù)：讓性能說話

在相同模型條件下(YOLOv5s)：