當前位置： CompoTech China > 專題 > 專題報道 >

舍棄加速器！Tensilica 獨立自含式 DSP IP 更有效率

本文作者：任苙萍點擊： 2017-06-15 08:30

前言：

節能系統設計之低功耗計算核心

網絡直播的浪濤泉涌，數千人同時在在線閱聽影音內容已屬司空見慣，移動終端的計算能力亦須跟上時代，視覺串流的處理尤其備受關注；加上監控和穿戴式設備以全年無休的＂不斷線＂(always-on) 為發展職志，若無法壓低功耗，電力恐撐沒多久就玩完了。一般保全監控視頻、汽車光達 (LiDAR)／雷達、無人機和傳感器融合等應用的視覺系統需要兩種優化計算：首先，運用傳統計算攝像／成像算法對來自攝像頭的輸入進行強化，其次，由神經網絡的辨識算法執行物體偵測和辨識。為達極致省電目的，從＂IP 核心＂根本革新有其必要性。

不只卷積層！突破 NN 引擎加速器極限，Vision C5 可加速所有計算架構
神經網絡 (NN) 已成深度學習 (Deep Learning) 顯學，但計算極具挑戰。楷登電子 (Cadence) 旗下 Tensilica 新近發布的 Vision C5，顛覆同業在影像數字信號處理器 (DSP) 捆綁＂NN硬件加速器＂(accelerator) 的作法，是業界首款真正專為 NN 獨立運作而生、被稱為＂獨立自含式＂的 DSP IP。Cadence Tensilica 處理器事業群資深總監 Steve Roddy 指出，早先 DSP＋ NN 引擎的方式乃將神經網絡編碼分割處理，不斷在 DSP 的網絡層與加速器的卷積層之間加載、卸除，而將其他層級的計算工作全數丟給主要 DSP / CPU / GPU 一肩獨攬。

照片人物：Cadence Tensilica 處理器事業群資深總監 Steve Roddy

＂如此一來，不僅執行效率不佳、且會造成不必要的耗電＂，Roddy 直戳 DSP＋ NN 引擎的痛點。他深入解說，如果 NN 架構的神經元 (Neurons) 數量增加，其間鍵接也會隨之平方增加；若利用硬件加速 NN 的指令周期，所需硬件結構的復雜度將大幅增加而變得不容易實現。相較之下，新款 Vision C5 所建構的＂通用型＂神經網絡 DSP，可加速所有神經網絡計算架構，包括：卷積 (Convolutional)、全連接 (Fully connected)、池化／取樣 (Pooling) 及標準化 (Normalization)，以精算＂型態辨識＂(Pattern recognition) 與相鄰數據間的關系。

Roddy 觀察到 CNN 算法有三大發展趨勢：1. 近來不到四年的時間，計算需求狂增十六倍；2. 網絡架構趨于規律化，層次分明——例如，AlexNet 適用于規模較大的卷積計算、ResNet 適用于規模較小者，以及線性 (Linear) 或分支 (branch) 計算；3. 新應用層出不窮，遍及汽車、服務器、家庭語音助理、手機及監控等，并強調：＂非卷積演算＂因鏈結關系相對簡單，計算次序無傷大雅，硬件加速器尚可應付；但若是具有綿密而復雜的對應關系、須步步為營的 CNN，邏輯一旦錯位，這些次序不明確且無法判讀意義的數據會讓網絡混淆。

表：可在嵌入式系統中執行神經網絡的方案比較

	CPU	GPU	NN 硬件加速器	視覺／影像 DSP	★Vision C5 DSP
開發容易程度	l 純軟件 l IP 易獲取	l 純軟件 l IP 易獲取	硬件在試產瞬間已定，軟件必須在不同的可編程 CPU / GPU / DSP 與加速器之間切割	l 純軟件 l IP 易獲取	l 純軟件 l IP 易獲取
功耗效率	最差	較 CPU 佳，但仍偏差	個別層級最佳，但全部加總后則不然	效率是 GPU 的 5～10倍	較 DSP＋NN 硬件加速器組合更佳
未來發展	可重新編程	可重新編程	難以重新編程，高風險	可重新編程	可重新編程
單一核心最大 NN 效能 ( / sec)	<< 200 GFLOP (每秒浮點計算次數)	< 200 GFLOP (每秒浮點計算次數)	最高至 1 TMAC	200～250 GMAC	最高至 1 TMAC，但可擴充

資料來源：Cadence (Tensilica)；筆者整理

兼顧 Always-On 低功耗與 Heavy-Duty 高計算需求
他進一步表示，＂除了低功耗和高速計算，嵌入式 always-on 系統的神經網絡處理器還需具備靈活性和因應未來需求的能力；而 Vision C5 借由消除神經網絡 DSP 與主要視覺／影像 DSP 之間的外來數據移動，提供較 NN 加速器、GPU 和 CPU 更低功耗的解決方案及簡單的 NN 編程模型＂。至于近年坊間出現的＂視覺處理器＂(VPU) 變種產品，Tensilica 的看法是：VPU 須用更多硬件才能實現同等的效能，將會導致整體功耗變高，亦非理想方案。簡言之，神經網絡獨立計算可降低 DSP 負載，同時免去與主要 DSP 頻繁往返的疲于奔命。

于是，負責操持大局的視覺／圖像 DSP 便能騰出更多資源、專注執行影像應用程序，將所有神經網絡計算交由同樣擁有完整戰力的 Vision C5 DSP 全權處置，分工合作。Tensilica 透露他們另一個實現低功耗的秘訣是：應對＂重量級任務＂(Heavy-Duty) 是以很大的計算單元一次搞定，之后便完全停工；經實驗結果證明，這將會比用大量平行計算、以低頻率分批運行的方式省電。＂更重要的是，Vision C5 DSP 具備可編程和可擴展特性，易于整合。此時此刻所選定的介接硬件平臺，將決定兩、三年后的產品銷售格局！＂Roddy 重申。

圖1：Tensilica Vision C5 DSP 框圖
資料來源：Cadence官網

他并提到，神經網絡的工作量會因終端市場大相徑庭，例如，手機每秒的吞吐量多在 200 GMAC (Giga Mac) 以下，但保全監控和汽車半自動駕駛由于 4K 高清畫質的帶動、以便易于辨識，就上看 1 TMAC (Tera MAC) 左右，若是全自動駕駛的無人車，則至少 10 TMAC 起跳！＂因此，效能指標不是越高越好，擴充的靈活度更應列入優先考慮，只有一種規格是無法跟上市場變化腳步的＂，Roddy 解釋。這多少也揭示為何 Tensilica 首發產品，是選擇從每秒 1 TMAC 的計算能力著手 (以 16nm 工藝、在不到 1 mm2 的芯片面積實現)，或許正是抓取中間值而來。

Cadence對映器工具組加持，編程及擴展皆唾手可及
根據 Tensilica 發布的數據顯示，Vision C5 DSP 支持 1024 個 8 位 MAC 或 512 個 16位 MAC，兩種位分辨率均能實現優異效能，與 GPU 相比并不遜色；要比知名 AlexNet CNN 效能基準快六倍、更是 Inception V3 CNN 效能基準的九倍！若仍力有未逮，其＂平臺式＂的多處理器設計支持可變核心大小、深度和輸入尺寸，亦能提供數個 TMAC 的高效能。它還包含多種系數壓縮／解壓技術，可隨時加入最新開發的層體，為日后所需預留空間；反觀硬件加速器因重新編程的能力有限，將來若想＂平滑過渡＂，最壞的局面恐須全部從頭來過！

圖2：Cadence 神經網絡對映器工具組 (Mapper Toolset) 提供標準的開源 CNN 框架，將信息流導入 CNN 映像器直抵 Vision C5 DSP
資料來源：Cadence官網

在指令集方面，Vision C5 DSP 擁有 128 路 8 位 SIMD 或 64 路 16 位 SIMD 的 VLIW SIMD 架構；另整合 128 位的 iDMA 及 AXI4 內存接口；其附帶的 Cadence 神經網絡對映器工具組 (Mapper Toolset) 可運用神經網絡鏈接庫功能，將所有 Caffe 和 TensorFlow 等主流框架生成的神經網絡，對映成可執行且高度優化的 Vision C5 DSP 編碼。Roddy 及隨機受訪的愛用者皆不諱言，這正是 Tensilica 與 Cadence 合并的最大優勢：縮短學習曲線并簡化認證作業，讓程序代碼更容易移植、編程更容易上手。

特別是新推出的 Vision C5 DSP 與 Tensilica 自身的 Vision P5 / P6 DSP 采用相同的實用軟件工具組，更有助于產品及時上市。在 DSP 授權市場連年奪冠的 Tensilica，授權用戶約 250 家；全球前二十大半導體廠、就有多達十七家皆是其用戶，每年全球 IC 出貨總量約 40 億顆，生態系有超過 200 個合作伙伴，在音頻 DSP 市場更是堪稱獨領風騷。事實上，除了視覺的高清辨識需要，聽覺的娛樂饗宴亦從未缺席；搭配人工智能 (AI) 算法的語音控制系統以及具有指向性的 3D 立體聲，有朝一日甚至能有更多功能性的應用。

圖3：Cadence Tensilica Vision 系列 DSP 所側重的應用市場各有不同
資料來源：Cadence官網

隨著影音浪潮的無孔不入，借助神經網絡架構的機會預料將有增無減；在特定應用 DSP IP 布局甚深、掌握專業知識的 Tensilica 有了 Cadence 集團資源加持，對于開發高效率的指令集將可獲得最實質的挹注，繼續發光發熱。

本月熱點 HOME

欄目熱點 HOME