網絡直播的浪濤泉涌,數千人同時在在線閱聽影音內容已屬司空見慣,移動終端的計算能力亦須跟上時代,視覺串流的處理尤其備受關注;加上監控和穿戴式設備以全年無休的"不斷線"(always-on) 為發展職志,若無法壓低功耗,電力恐撐沒多久就玩完了。一般保全監控視頻、汽車光達 (LiDAR)/雷達、無人機和傳感器融合等應用的視覺系統需要兩種優化計算:首先,運用傳統計算攝像/成像算法對來自攝像頭的輸入進行強化,其次,由神經網絡的辨識算法執行物體偵測和辨識。為達極致省電目的,從"IP 核心"根本革新有其必要性。
不只卷積層!突破 NN 引擎加速器極限,Vision C5 可加速所有計算架構
神經網絡 (NN) 已成深度學習 (Deep Learning) 顯學,但計算極具挑戰。楷登電子 (Cadence) 旗下 Tensilica 新近發布的 Vision C5,顛覆同業在影像數字信號處理器 (DSP) 捆綁"NN硬件加速器"(accelerator) 的作法,是業界首款真正專為 NN 獨立運作而生、被稱為"獨立自含式"的 DSP IP。Cadence Tensilica 處理器事業群資深總監 Steve Roddy 指出,早先 DSP+ NN 引擎的方式乃將神經網絡編碼分割處理,不斷在 DSP 的網絡層與加速器的卷積層之間加載、卸除,而將其他層級的計算工作全數丟給主要 DSP / CPU / GPU 一肩獨攬。
照片人物:Cadence Tensilica 處理器事業群資深總監 Steve Roddy
"如此一來,不僅執行效率不佳、且會造成不必要的耗電",Roddy 直戳 DSP+ NN 引擎的痛點。他深入解說,如果 NN 架構的神經元 (Neurons) 數量增加,其間鍵接也會隨之平方增加;若利用硬件加速 NN 的指令周期,所需硬件結構的復雜度將大幅增加而變得不容易實現。相較之下,新款 Vision C5 所建構的"通用型"神經網絡 DSP,可加速所有神經網絡計算架構,包括:卷積 (Convolutional)、全連接 (Fully connected)、池化/取樣 (Pooling) 及標準化 (Normalization),以精算"型態辨識"(Pattern recognition) 與相鄰數據間的關系。
Roddy 觀察到 CNN 算法有三大發展趨勢:1. 近來不到四年的時間,計算需求狂增十六倍;2. 網絡架構趨于規律化,層次分明——例如,AlexNet 適用于規模較大的卷積計算、ResNet 適用于規模較小者,以及線性 (Linear) 或分支 (branch) 計算;3. 新應用層出不窮,遍及汽車、服務器、家庭語音助理、手機及監控等,并強調:"非卷積演算"因鏈結關系相對簡單,計算次序無傷大雅,硬件加速器尚可應付;但若是具有綿密而復雜的對應關系、須步步為營的 CNN,邏輯一旦錯位,這些次序不明確且無法判讀意義的數據會讓網絡混淆。
表:可在嵌入式系統中執行神經網絡的方案比較
|
CPU
|
GPU
|
NN 硬件加速器
|
視覺/影像 DSP
|
★Vision C5 DSP
|
開發容易程度
|
l 純軟件
l IP 易獲取
|
l 純軟件
l IP 易獲取
|
硬件在試產瞬間已定,軟件必須在不同的可編程 CPU / GPU / DSP 與加速器之間切割
|
l 純軟件
l IP 易獲取
|
l 純軟件
l IP 易獲取
|
功耗效率
|
最差
|
較 CPU 佳,但仍偏差
|
個別層級最佳,但全部加總后則不然
|
效率是 GPU 的 5~10倍
|
較 DSP+NN 硬件加速器組合更佳
|
未來發展
|
可重新編程
|
可重新編程
|
難以重新編程,高風險
|
可重新編程
|
可重新編程
|
單一核心最大 NN 效能 ( / sec)
|
<< 200 GFLOP
(每秒浮點計算次數)
|
< 200 GFLOP
(每秒浮點計算次數)
|
最高至 1 TMAC
|
200~250 GMAC
|
最高至 1 TMAC,但可擴充
|
資料來源:Cadence (Tensilica);筆者整理
兼顧 Always-On 低功耗與 Heavy-Duty 高計算需求
他進一步表示,"除了低功耗和高速計算,嵌入式 always-on 系統的神經網絡處理器還需具備靈活性和因應未來需求的能力;而 Vision C5 借由消除神經網絡 DSP 與主要視覺/影像 DSP 之間的外來數據移動,提供較 NN 加速器、GPU 和 CPU 更低功耗的解決方案及簡單的 NN 編程模型"。至于近年坊間出現的"視覺處理器"(VPU) 變種產品,Tensilica 的看法是:VPU 須用更多硬件才能實現同等的效能,將會導致整體功耗變高,亦非理想方案。簡言之,神經網絡獨立計算可降低 DSP 負載,同時免去與主要 DSP 頻繁往返的疲于奔命。
于是,負責操持大局的視覺/圖像 DSP 便能騰出更多資源、專注執行影像應用程序,將所有神經網絡計算交由同樣擁有完整戰力的 Vision C5 DSP 全權處置,分工合作。Tensilica 透露他們另一個實現低功耗的秘訣是:應對"重量級任務"(Heavy-Duty) 是以很大的計算單元一次搞定,之后便完全停工;經實驗結果證明,這將會比用大量平行計算、以低頻率分批運行的方式省電。"更重要的是,Vision C5 DSP 具備可編程和可擴展特性,易于整合。此時此刻所選定的介接硬件平臺,將決定兩、三年后的產品銷售格局!"Roddy 重申。
圖1:Tensilica Vision C5 DSP 框圖
資料來源:Cadence官網
他并提到,神經網絡的工作量會因終端市場大相徑庭,例如,手機每秒的吞吐量多在 200 GMAC (Giga Mac) 以下,但保全監控和汽車半自動駕駛由于 4K 高清畫質的帶動、以便易于辨識,就上看 1 TMAC (Tera MAC) 左右,若是全自動駕駛的無人車,則至少 10 TMAC 起跳!"因此,效能指標不是越高越好,擴充的靈活度更應列入優先考慮,只有一種規格是無法跟上市場變化腳步的",Roddy 解釋。這多少也揭示為何 Tensilica 首發產品,是選擇從每秒 1 TMAC 的計算能力著手 (以 16nm 工藝、在不到 1 mm2 的芯片面積實現),或許正是抓取中間值而來。
Cadence對映器工具組加持,編程及擴展皆唾手可及
根據 Tensilica 發布的數據顯示,Vision C5 DSP 支持 1024 個 8 位 MAC 或 512 個 16位 MAC,兩種位分辨率均能實現優異效能,與 GPU 相比并不遜色;要比知名 AlexNet CNN 效能基準快六倍、更是 Inception V3 CNN 效能基準的九倍!若仍力有未逮,其"平臺式"的多處理器設計支持可變核心大小、深度和輸入尺寸,亦能提供數個 TMAC 的高效能。它還包含多種系數壓縮/解壓技術,可隨時加入最新開發的層體,為日后所需預留空間;反觀硬件加速器因重新編程的能力有限,將來若想"平滑過渡",最壞的局面恐須全部從頭來過!
圖2:Cadence 神經網絡對映器工具組 (Mapper Toolset) 提供標準的開源 CNN 框架,將信息流導入 CNN 映像器直抵 Vision C5 DSP
資料來源:Cadence官網
在指令集方面,Vision C5 DSP 擁有 128 路 8 位 SIMD 或 64 路 16 位 SIMD 的 VLIW SIMD 架構;另整合 128 位的 iDMA 及 AXI4 內存接口;其附帶的 Cadence 神經網絡對映器工具組 (Mapper Toolset) 可運用神經網絡鏈接庫功能,將所有 Caffe 和 TensorFlow 等主流框架生成的神經網絡,對映成可執行且高度優化的 Vision C5 DSP 編碼。Roddy 及隨機受訪的愛用者皆不諱言,這正是 Tensilica 與 Cadence 合并的最大優勢:縮短學習曲線并簡化認證作業,讓程序代碼更容易移植、編程更容易上手。
特別是新推出的 Vision C5 DSP 與 Tensilica 自身的 Vision P5 / P6 DSP 采用相同的實用軟件工具組,更有助于產品及時上市。在 DSP 授權市場連年奪冠的 Tensilica,授權用戶約 250 家;全球前二十大半導體廠、就有多達十七家皆是其用戶,每年全球 IC 出貨總量約 40 億顆,生態系有超過 200 個合作伙伴,在音頻 DSP 市場更是堪稱獨領風騷。事實上,除了視覺的高清辨識需要,聽覺的娛樂饗宴亦從未缺席;搭配人工智能 (AI) 算法的語音控制系統以及具有指向性的 3D 立體聲,有朝一日甚至能有更多功能性的應用。
圖3:Cadence Tensilica Vision 系列 DSP 所側重的應用市場各有不同
資料來源:Cadence官網
隨著影音浪潮的無孔不入,借助神經網絡架構的機會預料將有增無減;在特定應用 DSP IP 布局甚深、掌握專業知識的 Tensilica 有了 Cadence 集團資源加持,對于開發高效率的指令集將可獲得最實質的挹注,繼續發光發熱。