當前位置: CompoTech China > 專題 > 專題報道 >
         

        舍棄加速器!Tensilica 獨立自含式 DSP IP 更有效率

        本文作者:任苙萍       點擊: 2017-06-15 08:30
        前言:
        節能系統設計之低功耗計算核心
        網絡直播的浪濤泉涌,數千人同時在在線閱聽影音內容已屬司空見慣,移動終端的計算能力亦須跟上時代,視覺串流的處理尤其備受關注;加上監控和穿戴式設備以全年無休的"不斷線"(always-on) 為發展職志,若無法壓低功耗,電力恐撐沒多久就玩完了。一般保全監控視頻、汽車光達 (LiDAR)/雷達、無人機和傳感器融合等應用的視覺系統需要兩種優化計算:首先,運用傳統計算攝像/成像算法對來自攝像頭的輸入進行強化,其次,由神經網絡的辨識算法執行物體偵測和辨識。為達極致省電目的,從"IP 核心"根本革新有其必要性。
         
        不只卷積層!突破 NN 引擎加速器極限,Vision C5 可加速所有計算架構
        神經網絡 (NN) 已成深度學習 (Deep Learning) 顯學,但計算極具挑戰。楷登電子 (Cadence) 旗下 Tensilica 新近發布的 Vision C5,顛覆同業在影像數字信號處理器 (DSP) 捆綁"NN硬件加速器"(accelerator) 的作法,是業界首款真正專為 NN 獨立運作而生、被稱為"獨立自含式"的 DSP IP。Cadence Tensilica 處理器事業群資深總監 Steve Roddy 指出,早先 DSP+ NN 引擎的方式乃將神經網絡編碼分割處理,不斷在 DSP 的網絡層與加速器的卷積層之間加載、卸除,而將其他層級的計算工作全數丟給主要 DSP / CPU / GPU 一肩獨攬。
         

        照片人物:Cadence Tensilica 處理器事業群資深總監 Steve Roddy
         
        "如此一來,不僅執行效率不佳、且會造成不必要的耗電",Roddy 直戳 DSP+ NN 引擎的痛點。他深入解說,如果 NN 架構的神經元 (Neurons) 數量增加,其間鍵接也會隨之平方增加;若利用硬件加速 NN 的指令周期,所需硬件結構的復雜度將大幅增加而變得不容易實現。相較之下,新款 Vision C5 所建構的"通用型"神經網絡 DSP,可加速所有神經網絡計算架構,包括:卷積 (Convolutional)、全連接 (Fully connected)、池化/取樣 (Pooling) 及標準化 (Normalization),以精算"型態辨識"(Pattern recognition) 與相鄰數據間的關系。
         
        Roddy 觀察到 CNN 算法有三大發展趨勢:1. 近來不到四年的時間,計算需求狂增十六倍;2. 網絡架構趨于規律化,層次分明——例如,AlexNet 適用于規模較大的卷積計算、ResNet 適用于規模較小者,以及線性 (Linear) 或分支 (branch) 計算;3. 新應用層出不窮,遍及汽車、服務器、家庭語音助理、手機及監控等,并強調:"非卷積演算"因鏈結關系相對簡單,計算次序無傷大雅,硬件加速器尚可應付;但若是具有綿密而復雜的對應關系、須步步為營的 CNN,邏輯一旦錯位,這些次序不明確且無法判讀意義的數據會讓網絡混淆。
         
        表:可在嵌入式系統中執行神經網絡的方案比較

         

        CPU

        GPU

        NN 硬件加速器

        視覺/影像 DSP

        Vision C5 DSP

        開發容易程度

        l  純軟件

        l  IP 易獲取

        l  純軟件

        l  IP 易獲取

        硬件在試產瞬間已定,軟件必須在不同的可編程 CPU / GPU / DSP 與加速器之間切割

        l  純軟件

        l  IP 易獲取

        l  純軟件

        l  IP 易獲取

        功耗效率

        最差

        CPU 佳,但仍偏差

        個別層級最佳,但全部加總后則不然

        效率是 GPU 510

        DSPNN 硬件加速器組合更佳

        未來發展

        可重新編程

        可重新編程

        難以重新編程,高風險

        可重新編程

        可重新編程

        單一核心最大 NN 效能 ( / sec)

        << 200 GFLOP
        (每秒浮點計算次數)

        < 200 GFLOP
        (每秒浮點計算次數)

        最高至 1 TMAC

        200250 GMAC

        最高至 1 TMAC,但可擴充

        資料來源:Cadence (Tensilica);筆者整理
         
        兼顧 Always-On 低功耗與 Heavy-Duty 高計算需求
        他進一步表示,"除了低功耗和高速計算,嵌入式 always-on 系統的神經網絡處理器還需具備靈活性和因應未來需求的能力;而 Vision C5 借由消除神經網絡 DSP 與主要視覺/影像 DSP 之間的外來數據移動,提供較 NN 加速器、GPU 和 CPU 更低功耗的解決方案及簡單的 NN 編程模型"。至于近年坊間出現的"視覺處理器"(VPU) 變種產品,Tensilica 的看法是:VPU 須用更多硬件才能實現同等的效能,將會導致整體功耗變高,亦非理想方案。簡言之,神經網絡獨立計算可降低 DSP 負載,同時免去與主要 DSP 頻繁往返的疲于奔命。
         
        于是,負責操持大局的視覺/圖像 DSP 便能騰出更多資源、專注執行影像應用程序,將所有神經網絡計算交由同樣擁有完整戰力的 Vision C5 DSP 全權處置,分工合作。Tensilica 透露他們另一個實現低功耗的秘訣是:應對"重量級任務"(Heavy-Duty) 是以很大的計算單元一次搞定,之后便完全停工;經實驗結果證明,這將會比用大量平行計算、以低頻率分批運行的方式省電。"更重要的是,Vision C5 DSP 具備可編程和可擴展特性,易于整合。此時此刻所選定的介接硬件平臺,將決定兩、三年后的產品銷售格局!"Roddy 重申。
         

        圖1:Tensilica Vision C5 DSP 框圖
        資料來源:Cadence官網
         
        他并提到,神經網絡的工作量會因終端市場大相徑庭,例如,手機每秒的吞吐量多在 200 GMAC (Giga Mac) 以下,但保全監控和汽車半自動駕駛由于 4K 高清畫質的帶動、以便易于辨識,就上看 1 TMAC (Tera MAC) 左右,若是全自動駕駛的無人車,則至少 10 TMAC 起跳!"因此,效能指標不是越高越好,擴充的靈活度更應列入優先考慮,只有一種規格是無法跟上市場變化腳步的",Roddy 解釋。這多少也揭示為何 Tensilica 首發產品,是選擇從每秒 1 TMAC 的計算能力著手 (以 16nm 工藝、在不到 1 mm2 的芯片面積實現),或許正是抓取中間值而來。
         
        Cadence對映器工具組加持,編程及擴展皆唾手可及
        根據 Tensilica 發布的數據顯示,Vision C5 DSP 支持 1024 個 8 位 MAC 或 512 個 16位 MAC,兩種位分辨率均能實現優異效能,與 GPU 相比并不遜色;要比知名 AlexNet CNN 效能基準快六倍、更是 Inception V3 CNN 效能基準的九倍!若仍力有未逮,其"平臺式"的多處理器設計支持可變核心大小、深度和輸入尺寸,亦能提供數個 TMAC 的高效能。它還包含多種系數壓縮/解壓技術,可隨時加入最新開發的層體,為日后所需預留空間;反觀硬件加速器因重新編程的能力有限,將來若想"平滑過渡",最壞的局面恐須全部從頭來過!
         

        圖2:Cadence 神經網絡對映器工具組 (Mapper Toolset) 提供標準的開源 CNN 框架,將信息流導入 CNN 映像器直抵 Vision C5 DSP
        資料來源:Cadence官網
         
        在指令集方面,Vision C5 DSP 擁有 128 路 8 位 SIMD 或 64 路 16 位 SIMD 的 VLIW SIMD 架構;另整合 128 位的 iDMA 及 AXI4 內存接口;其附帶的 Cadence 神經網絡對映器工具組 (Mapper Toolset) 可運用神經網絡鏈接庫功能,將所有 Caffe 和 TensorFlow 等主流框架生成的神經網絡,對映成可執行且高度優化的 Vision C5 DSP 編碼。Roddy 及隨機受訪的愛用者皆不諱言,這正是 Tensilica 與 Cadence 合并的最大優勢:縮短學習曲線并簡化認證作業,讓程序代碼更容易移植、編程更容易上手。
         
        特別是新推出的 Vision C5 DSP 與 Tensilica 自身的 Vision P5 / P6 DSP 采用相同的實用軟件工具組,更有助于產品及時上市。在 DSP 授權市場連年奪冠的 Tensilica,授權用戶約 250 家;全球前二十大半導體廠、就有多達十七家皆是其用戶,每年全球 IC 出貨總量約 40 億顆,生態系有超過 200 個合作伙伴,在音頻 DSP 市場更是堪稱獨領風騷。事實上,除了視覺的高清辨識需要,聽覺的娛樂饗宴亦從未缺席;搭配人工智能 (AI) 算法的語音控制系統以及具有指向性的 3D 立體聲,有朝一日甚至能有更多功能性的應用。
         


        圖3:Cadence Tensilica Vision 系列 DSP 所側重的應用市場各有不同
        資料來源:Cadence官網
         
        隨著影音浪潮的無孔不入,借助神經網絡架構的機會預料將有增無減;在特定應用 DSP IP 布局甚深、掌握專業知識的 Tensilica 有了 Cadence 集團資源加持,對于開發高效率的指令集將可獲得最實質的挹注,繼續發光發熱。
        主站蜘蛛池模板: 中文字幕无码精品亚洲资源网| 毛片a级毛片免费播放100| 亚洲一级黄色视频| 一区二区免费电影| 亚洲日本乱码在线观看| 中文字幕的电影免费网站| 亚洲毛片αv无线播放一区| 好紧我太爽了视频免费国产| 亚洲成色在线综合网站| 99re免费视频| 亚洲天堂2016| 国产黄色片在线免费观看| 国产亚洲综合视频| 亚洲色欲久久久综合网| 爱丫爱丫影院在线观看免费| 色婷婷亚洲十月十月色天| 综合在线免费视频| 青青青亚洲精品国产| 2048亚洲精品国产| 99在线观看视频免费| 亚洲性色高清完整版在线观看| 免费无码肉片在线观看| 美女被免费网站视频在线| 亚洲人成亚洲人成在线观看| 一级毛片全部免费播放| 亚洲色无码专区一区| 国产a v无码专区亚洲av| 无码人妻精品中文字幕免费 | 成人亚洲国产va天堂| 在线日韩av永久免费观看| 久久WWW免费人成—看片| 久久精品亚洲中文字幕无码麻豆| 日本精品人妻无码免费大全| 日日狠狠久久偷偷色综合免费| 久久久亚洲欧洲日产国码农村| 24小时免费直播在线观看| 一区二区视频在线免费观看| 久久亚洲春色中文字幕久久久| 免费大香伊蕉在人线国产| 久久国产乱子伦精品免费看| 亚洲欧洲日产国码久在线|