AI 搶灘陣式3:從設備、主機到云端,軟、硬全面加速
"深度學習"堆棧不簡單!NVIDIA 讓機器自己寫軟件
GPU (圖形處理器) 已成大數據計算、分析、排序等并行計算的骨干。GPU 鼻祖可追溯至英偉達 (NVIDIA) 于 1999 年首推、專職幾何轉換并改進光影表現的 GeForce 256;2008 年,受惠于信息大廠力拱 OpenCL 跨平臺應用程序編程接口 (API),終將 GPU 推上"超級電腦"舞臺。2015 年,"JETSON TX1"模塊的每秒浮點計算能力達陣 Tera 等級,為 NVIDIA 成功打開深度學習 (Deep Learning)、電腦視覺等嵌入式人工智能 (AI) 市場。
CUDA 為 ASIC 編程奠定里程碑
日前 GTC Taiwan 年會上,NVIDIA 創辦人暨執行長黃仁勛一上臺就表示:移動世代,電腦被帶進每一個人的口袋;邁入云紀元,每個移動設備都將成為一部超級電腦;今后的 AI 世界,電腦將可自行編程軟件、自主學習,為數以億萬計的計算設備注入智能,為產業帶來空前盛況,而軟件與計算是電腦科技的兩大驅動因素。他認為,軟件開發將因深度學習而有巨大改變,能自動偵測、學習,從大數據取得所需并設計成可被理解的架構與知識,進而找出共通點和規則,做出預測、判斷。
照片人物:NVIDIA 創辦人暨執行長黃仁勛
然而,深度學習有一個重要前提:強大的計算能力??上芟抻诎雽w物理特性,每年增加 50% 晶體管及效能的摩爾定律已近尾聲;取而代之的是,另一股新興力量正在崛起——基于 GPU 的全新算法和計算架構,讓它與 CPU 并行協作、加速計算。黃仁勛推估,在新的微處理器、軟件堆棧、算法及應用程序開發者的攜手合作下,2025 年的計算能力將增加千倍。他并提到,軟件與計算平臺兩者其實互為雞生蛋、蛋生雞的微妙關系:計算平臺需要軟件配合,才能解決過去無法處理的問題;另一方面,軟件開發也要考慮到硬件是否有能力支撐。
"這也是為何近年并無太多新計算平臺橫空出世的原因",黃仁勛說。他回顧,誕生已滿十個年頭的革命性計算架構 CUDA,即結合了高效能的特定應用集成電路 (ASIC) 及可編程模式,才能讓開發者輕松應對大量、復雜的平行計算;近五年間,CUDA 開發者數量已狂增十五倍,迄今累積逾 64.5 萬人,下載次數大于 600 萬次,單是去年就有 180 萬次。黃仁勛自豪宣示,2017 年諾貝爾物理、化學兩個獎項的得主——前者證明愛因斯坦重力波理論,后者藉低溫電子顯微鏡的高傳真原子尺度研究分子,皆得力于 NVIDIA GPU 的匡助。
VR 商業價值漸顯,"Holodeck"為終端創建運作環境
有鑒于電腦繪圖也是虛擬現實 (VR) 的重要推手,NVIDIA 特為 hTC VIVE 等 VR 設備創造名為"Holodeck"的高度逼真、可遵循物理原則之 VR 環境,以描繪真實場景;用戶可用它分享數字內容、邀請真人穿梭其中并分派 AI 角色;場中人員的轉頭、揮手動作皆能忠實呈現,且可感覺到觸碰或疼痛。借用這樣的虛擬會議室召開產品會議,可直接將汽、機車等設計圖匯入"Holodeck",讓分散各地的與會人員彷佛置身同一個約定空間商討;不僅能透視產品內部構造、獲悉全部細節,還可實時調整參數或變更設計外觀、材質。
圖1:在"Holodeck"虛擬環境進行產品會議,有身歷其境之感
數據源:翻攝于 NVIDIA GTC Taiwan 屏幕展示
黃仁勛強調,AI 可解決以往軟件編程無法解決的問題,例如,長時間做光線追蹤,而 NVIDIA 卻能運用深度學習來訓練自動編碼器,完成局部呈現的寫實影像;每一次的光粒子與表面撞擊到進入眼睛的過程需要許多數學計算,若不夠完整,根本無從察覺差異。NVIDIA 與 Remedy 創建一種神經網絡,可通過觀看影片、從說話者的語態模擬當時的 3D 面部表情,做成動畫;另與加拿大新創公司 WRNCH 訓練網絡、推論 2D 影片中的人物在 3D 空間里的位置及姿勢,一個典型應用是:只要有攝影機對著人、物拍攝,就能瞬間將其轉換到 VR 環境。
此外,愛丁堡大學的研究人員訓練網絡仿真一個能適應不同環境與地形的虛擬角色,它會自行規劃行進路徑并聰明地避開障礙物;而加洲大學柏克萊分校與 OpenAI 發明的"一次性模仿學習",只須寥寥數次的示范,就能成功教導機器人執行新任務。諸如此類,都是人類編程不容易做到的,也呼應了黃仁勛稍早"AI is eating Software"的說法。為協助培植臺灣本土 AI 產業,NVIDIA 將與科技部合作,提供包括網絡實驗室與研討課程等實作訓練課程,學習如何使用開源框架與 NVIDIA GPU 加速深度學習平臺,擬于未來四年培訓 3,000 位開發人員。
Tesla P100 GPU 為服務器加速,Jetson TX2 聚焦邊緣設備
與此同時,國家高速網絡與計算中心將組建全臺第一部專為 AI 打造、搭載 NVIDIA DGX AI 計算平臺與 Volta GPU 的超級電腦,期于明年達到 4 petaflops 的效能、躋身全球五百大排行榜的前二十五名,預計四年內上看 10 petaflops。事實上,NVIDIA 在去年推出搭載 Tesla P100 GPU 加速器、由 124 部 DGX-1 服務器組成的 DGX SATURNV 超級電腦,一上市就在 TOP 500 勇奪第二十八名,每秒可執行1 quintillion (10 的 18 次方) 次計算,鎖定高效燃油引擎、完全燃燒核融合反應器模型及醫藥研究等超精密大型應用,包括 NVIDIA DRIVE PX 2 自駕車。
圖2:DGX SATURNV 的計算能力可更快速訓練深度神經網絡,創建更智能的 AI
數據源:NVIDIA 官網
DGX-1 整合了深度學習軟件、開發工具及八顆 Pascal 架構的 Tesla P100 GPU,可謂是連接 AI 與超級電腦的橋梁。延續 Pascal 架構、于今年第一季新登場的 Jetson TX2 借助"六核異構計算",將整套 AI 系統集成在信用卡大小的電路板上,且耗電不到 7.5W,特別適用于小體積、低功耗的邊緣設備 (Edge Device),可在商用無人機、工業機械、智慧攝影等終端實現進階導航、影像分類與語音識別的神經網絡計算,例如:多合一電腦分享、自動偵測商品存量、接合 360°影片做 4K 高畫質直播串流服務,或支持小型無人機的視覺演算。
服務器、超級電腦和終端布局完成后,NVIDIA 的研發腳步并未停歇;為追求更高效計算 (HPC),今年第二季,NVIDIA 再發布第七代 GPU 架構 Volta——采用臺積電 12nm 制程、集成 210 億顆晶體管以及新的數字格式和 CUDA 指令,可執行 4×4 矩陣計算、支持 250 個應用程序,首款 GPU 代表作是 Tesla V100;一部搭載 Tesla V100 GPU 的服務器效能,號稱足以頂替市售搭載數百顆 CPU 的傳統 HPC 電腦,跨越深度學習的 100 TFLOPS 效能"天塹"(官方數據為 120 TFLOPS),為 AI 訓練 (Training) 和推論 (Inference) 提供更高的浮點計算效能。
Volta 應 HPC 而生,Tesla V100 未演先轟動
黃仁勛指出,傳統 HPC 目前只有不到 10% 有搭載加速器,市場成長空間極大,而 CUDA 已成 HPC 的基礎核心。Tesla V100 能支持語音助理、個人化搜尋與建議系統等高度精準 AI 服務,還能加速 HPC 與繪圖作業且具備擴充性;若將 DGX-1 AI 超級電腦連接八個 Tesla V100 GPU,可使深度學習能力再翻倍。此外,NVDIA 還另行開發名為"NVLink"的高速互連通訊接口以加快多個 GPU 之間、或與 CPU 的溝通,并與三星共同開發數據傳輸率達 900 Gbps 的 HBM2 DRAM 內存,為大型數據中心組建"HGX 參考架構"以推動 AI 云計算。
圖3:HGX 服務器設計將八個 Tesla V100 GPU 加速器通過 NVLink 互連技術,組成混合式立方網絡 (hybrid cube mesh)
數據源:NVIDIA 提供
意識到公有云市值已達 250 億美元,蘊含驚人商機;NVIDIA 早在 2010 年便與 Amazon AWS 推出首款針對 GPU 進行優化的云端實例;Facebook 的 Caffe 2、PyTorch 與 Google 的機器學習、高效計算和數據分析,以及 Microsoft 的 Azure N 系列、Project Olympus 和 Cognitive 工具套件,亦見 NVIDIA 蹤跡,并相繼宣示將升級至 Volta。美國橡樹嶺國家實驗室將于明年問世的科研超級電腦 Summit,也以 Volta GPU 作為計算核心。中國市場亦大有斬獲,百度云及智慧駕駛、騰訊的語音/相片/視訊及騰訊云的深度學習平臺,也是 NVIDIA 伙伴。
黃仁勛預期,AI 會將信息注入 2,000 萬個云服務器、上百億萬計的車輛及工業機器人,最終,高達一兆個物聯網 (IoT) 設備與各種傳感器將會智能監控一切,從人體心跳、血壓,到工廠設備的振動;就算不上公共網域,也會在局網中運行,將收集到的數據匯入神經網絡里。雖然百度、騰訊和京東的數據中心也是 AMD EPYC 處理器的用戶,不久前更傳出阿里巴巴和百度有意采用 AMD Radeon Instinct GPU 加速器做深度學習的消息,對 NVIDIA 的 Tesla P100 GPU 可能造成威脅,不過 NVIDIA 回應,挾著多年生態系耕耘優勢,對自家產品仍信心十足。
云 NVDocker 容器,免去開發者編譯困擾
"深度學習的軟件堆棧相當復雜,包括計算、系統、網絡資源分配、中間件、函式庫到各式算法,且以等比級數的速度成長",黃仁勛說??紤]到開發者有各自偏好的架構及工具,在編譯 (Compiler) 時或將遭遇版本兼容性問題,NVIDIA 特針對"訓練"必要的模型及網絡架構,為每個堆棧創造 NVDocker 容器;通過 CUDA 加速,將經過優化、測試的堆棧全數儲存于 NVIDIA GPU 云容器注冊表 (NGC)。開發者上網注冊就能下載、導入至內建 CUDA 芯片的數據中心、工作站或個人電腦。最重要的是,NVIDIA 承諾會永久維護,讓內容保持在最新狀態。
圖4:NGC 是 GPU 加速云平臺,開發者可通過本地網絡、Amazon EC2 或其他云平臺提供商的深入學習框架,快速入門
數據源:NVIDIA 提供
黃仁勛剖析,深度神經網絡 (DNN) 結合多個演算式及上百萬個參數,是非常龐雜的檔案,可能應用在大型數據中心、也可能是小型機器手臂或單純的程序堆棧指令,而未來大部分的節點都將用于"推論"。推論設備大爆炸的結果是:整個地球將被神經網絡包圍,無遠弗屆;這些堆棧須在大大小小的不同應用平臺運行,例如:麥克風、機器人、自駕車或超級電腦中心,將迫使各式網絡不斷成長,故推論平臺須具備可編程特性及擴展性以因應多元且不斷升級的網絡架構,而新架構、更深層的網絡與神經網絡層設計,又將持續增進卷積神經網絡 (CNN) 效能。
AI 推論大爆發,計算之外……編譯也要加速
用于分類的循環神經網絡 (RNNS) 以及長短期記憶 (LSTM) 的辨識語句與翻譯效能已超越人類,而生成對抗網絡 (GAN) 利用一個可被訓練用于偵測的判別器、以及另一個用于制造事例來欺騙判別器的生成器,可完美產生影像、聲音并除噪。為方便不同設備的編譯加速,NVIDIA 另推全球首款可編程推論加速器 TensorRT,會依據目標應用適度移除神經網絡上不必要的元素,并善用指令將復雜架構重新堆棧融合 (Fusion),執行多串流 (Multi- Stream)。第三代 TensorRT3 便是沖著 CUDA GPU 神經網絡而來,利用 CUDA 深度學習指令創建運行時間并優化數值精準度、分層和張量。
黃仁勛認為,深度學習模型須先行將電腦優化,才能在低延遲、高吞吐量、低功耗、少量內存的情況下進行推論。不久的將來,數據中心內每個查詢與工作負載都將包含一個或多個 DNN 推論,而推論的吞吐量會直接反應在數據中心的總持有成本 (TCO) 上。例如,CPU+TensorFlow 每秒可處理 140 個圖像,但 Tesla V100+TensorRT 每秒可處理 5,700 個、足足快了 40 倍,語音更快上 150 倍,意謂每個 V100 服務器可省下約 50 萬美元的成本。
圖5:TensorRT 可用于快速優化、驗證和部署訓練有素的神經網絡,包括大型數據中心、嵌入式系統或汽車平臺
數據源:NVIDIA 官網
AI 下個重頭戲:自駕車
黃仁勛主張,通過價值功能取向的試誤及獎懲做強化學習,在不斷嘗試后,最終機器人一定能把任務學好;而將深度學習軟件與服務結合,NVIDIA 有信心做出史上第一輛沒有駕駛和方向盤的真正無人車。他預告:"自主機器世代即將來臨!自駕車就是第一個自主機器人。傳感器、人工智能與節能的 CUDA GPU 將為自主機器打開一個新世界"。為符合自駕車"Fail-Safe Operator"要求 (即使當機仍要正常運作),NVIDIA 的策略是在數據中心里訓練神經網絡,用超級電腦仿真所有哩程——DRIVE PX PEGASUS 是全球首部專為量產自駕出租車所打造的電腦。
"這個超級計算數據中心僅有車牌大小,可放在后車箱做 ASIL 安全等級測試,320 TOPS 計算效能的功耗只有 500W",黃仁勛介紹。最后,他總結 AI 趨勢:繼產業自動化后,將迎向"自動化的自動化"(機器自己寫軟件);為此,NVIDIA 備有五大策略因應:
●JETSON 自主機器平臺:超級電腦的 baby,用于終端設備;
●JetPack SDK:專為 JETSON 設計的整合軟件開發工具包;
●DIGITS 應用程序:專為訓練神經網絡、或導入預先訓練過的網絡所設計;
●Isaac 虛擬實驗室:機器人在其中被創造并學習將任務做到盡善盡美;
●深度學習機構:機器人模擬環境平臺,可訓練打高爾夫球等高難度動作。通過機械原理、傳感器與傳動設備,搭配精準的環境模型與物理仿真,訓練過后的類神經網絡可被下載并導入真實世界使用。