NetSpeed Systems大中華區銷售總監黃啓弘
人工智能(AI)技術飛速發展,對計算單元的性能和并行處理需求,已經超越過去幾十年摩爾定律的模式,并改變了計算架構。盡管科技人員在計算系統中堆積幾百個乃至上千計算單元,但是仍然難以滿足AI對性能和效率的渴求。
典型的AI結構圖包括,學習,建模、預測等模塊,每一個模塊都需要大量的計算力,這讓設計人員面臨全新挑戰。比如,AI系統在訓練側與推理側都需要大型矩陣乘法,滿足這樣的工作負載需要大量計算單元(處理器內核),大量并行結構,實現點對點通信。這在硬件結構上,使得計算系統對位寬要求越來越高,內部512bit,1024bit位寬也只是勉強滿足現有應用。未來隨著內核數量增加,就需要更多的位寬,而帶寬(位寬乘以頻率)更是達到(TB/s)級別(現在的處理器仍然是GB/s)的帶寬。
盡管處理器數量可以不斷增加,但是增加位寬,需要增加器件內部連接通道,難度卻是幾何級數增加的,設計復雜度激增,良率下降等等諸多問題,造成成本難以接受。
人們需要更好的方法來改善計算單元內部通信的問題。
互聯網通信的路由技術,給了設計人員很大的啟發,借助路由技術,互聯網數據可以通過優化的路徑以最穩定可靠的方式在收發端建立起聯系,而無需占用兩端間所有的通信資源。因此,將成百上千計算單元的路徑看作各個互聯網節點,讓數據更加有效率地進行傳遞,將大大節約芯片內部的通信線路設計成本,降低設計復雜度和制造難度。
芯片內部的這種大量單元構成的系統被賦予一個形象的名字----片上網絡。隨著芯片內部計算單元的增多,片上網絡的性能和優化成為新的技術熱點。
NetSpeed公司就是研究片上網絡的IP授權公司,他們為移動設備、網絡系統和高性能計算等眾多市場的片上系統設計人員提供高擴展性的緩存一致性片上網絡IP。
該公司創始人兼CTO Sailesh Kumar,是 IP 轉發 (IP forwarding)、深度包檢測 (deep packet inspection)、存儲系統和高速系統算法方面的著名專家。曾經在華為科技公司擔任首席架構師,負責開發業內首個 100G 服務網絡處理器芯片組的智能內存子系統。
如今,當AI處理器內部計算單元越來越多的時候,片上網絡IP就越有用武之地。
NetSpeed Systems日前宣布推出業界首款以人工智能為基礎的SoC芯片內部互連解決方案Orion AI。該方案支持多播與廣播等先進特性,能極大提升人工智能SoC與加速器ASIC的性能與效率,可廣泛應用于數據中心、自動駕駛、AR/VR,以及先進視頻分析。
“這些新SoC內部體現出的是一種新的數據流,”NetSpeed首席執行官Sundari Mitra說道,“一般來說,想實現快速有效的點對點數據交換,就需要大量的計算單元。傳統架構運行方式不同,采用中央存儲作為數據交換系統。而人工智能系統需要任意位置數據交換,這可以通過廣泛的接口而實現,并需要支持長突發傳輸。Orion AI的一個關鍵優勢就是能夠支持多重多播請求,并支持非阻塞傳輸。”
Orion AI由NetSpeed的圖靈機器學習引擎提供支持,該引擎使用監督學習來探索和優化SoC設計與架構。片上帶寬高達(TB/s)萬億位,并具備支持數千計算引擎的底層架構。它提供超寬數據通路,接口位寬高達1024位,內部結構位寬更高,并可支持高達4K字節的長突發傳輸。
“Orion AI的 IP已經授權給地平線機器人、寒武紀、百度以及Esperanto等領先的人工智能公司。”NetSpeed Systems大中華區銷售總監黃啓弘介紹。
中國正處于AI芯片的研發熱潮之中,對先進技術更是前所未有的渴求,是NetSpeed希望大力開拓的主要目標市場,通過與中國領先的AI公司合作,NetSpeed期望實現與本地芯片產業的雙贏。