當(dāng)前位置: CompoTech China > 專題 > 專題報(bào)道 >
         

        "深度學(xué)習(xí)"堆棧不簡單!NVIDIA 讓機(jī)器自己寫軟件

        本文作者:任苙萍       點(diǎn)擊: 2017-11-13 11:22
        前言:
        AI 搶灘陣式3:從設(shè)備、主機(jī)到云端,軟、硬全面加速
        "深度學(xué)習(xí)"堆棧不簡單!NVIDIA 讓機(jī)器自己寫軟件
         
        GPU (圖形處理器) 已成大數(shù)據(jù)計(jì)算、分析、排序等并行計(jì)算的骨干。GPU 鼻祖可追溯至英偉達(dá) (NVIDIA) 于 1999 年首推、專職幾何轉(zhuǎn)換并改進(jìn)光影表現(xiàn)的 GeForce 256;2008 年,受惠于信息大廠力拱 OpenCL 跨平臺(tái)應(yīng)用程序編程接口 (API),終將 GPU 推上"超級(jí)電腦"舞臺(tái)。2015 年,"JETSON TX1"模塊的每秒浮點(diǎn)計(jì)算能力達(dá)陣 Tera 等級(jí),為 NVIDIA 成功打開深度學(xué)習(xí) (Deep Learning)、電腦視覺等嵌入式人工智能 (AI) 市場。
         
        CUDA 為 ASIC 編程奠定里程碑
        日前 GTC Taiwan 年會(huì)上,NVIDIA 創(chuàng)辦人暨執(zhí)行長黃仁勛一上臺(tái)就表示:移動(dòng)世代,電腦被帶進(jìn)每一個(gè)人的口袋;邁入云紀(jì)元,每個(gè)移動(dòng)設(shè)備都將成為一部超級(jí)電腦;今后的 AI 世界,電腦將可自行編程軟件、自主學(xué)習(xí),為數(shù)以億萬計(jì)的計(jì)算設(shè)備注入智能,為產(chǎn)業(yè)帶來空前盛況,而軟件與計(jì)算是電腦科技的兩大驅(qū)動(dòng)因素。他認(rèn)為,軟件開發(fā)將因深度學(xué)習(xí)而有巨大改變,能自動(dòng)偵測、學(xué)習(xí),從大數(shù)據(jù)取得所需并設(shè)計(jì)成可被理解的架構(gòu)與知識(shí),進(jìn)而找出共通點(diǎn)和規(guī)則,做出預(yù)測、判斷。
         

        照片人物:NVIDIA 創(chuàng)辦人暨執(zhí)行長黃仁勛
         
        然而,深度學(xué)習(xí)有一個(gè)重要前提:強(qiáng)大的計(jì)算能力。可惜受限于半導(dǎo)體物理特性,每年增加 50% 晶體管及效能的摩爾定律已近尾聲;取而代之的是,另一股新興力量正在崛起——基于 GPU 的全新算法和計(jì)算架構(gòu),讓它與 CPU 并行協(xié)作、加速計(jì)算。黃仁勛推估,在新的微處理器、軟件堆棧、算法及應(yīng)用程序開發(fā)者的攜手合作下,2025 年的計(jì)算能力將增加千倍。他并提到,軟件與計(jì)算平臺(tái)兩者其實(shí)互為雞生蛋、蛋生雞的微妙關(guān)系:計(jì)算平臺(tái)需要軟件配合,才能解決過去無法處理的問題;另一方面,軟件開發(fā)也要考慮到硬件是否有能力支撐。
         
        "這也是為何近年并無太多新計(jì)算平臺(tái)橫空出世的原因",黃仁勛說。他回顧,誕生已滿十個(gè)年頭的革命性計(jì)算架構(gòu) CUDA,即結(jié)合了高效能的特定應(yīng)用集成電路 (ASIC) 及可編程模式,才能讓開發(fā)者輕松應(yīng)對(duì)大量、復(fù)雜的平行計(jì)算;近五年間,CUDA 開發(fā)者數(shù)量已狂增十五倍,迄今累積逾 64.5 萬人,下載次數(shù)大于 600 萬次,單是去年就有 180 萬次。黃仁勛自豪宣示,2017 年諾貝爾物理、化學(xué)兩個(gè)獎(jiǎng)項(xiàng)的得主——前者證明愛因斯坦重力波理論,后者藉低溫電子顯微鏡的高傳真原子尺度研究分子,皆得力于 NVIDIA GPU 的匡助。
         
        VR 商業(yè)價(jià)值漸顯,"Holodeck"為終端創(chuàng)建運(yùn)作環(huán)境
        有鑒于電腦繪圖也是虛擬現(xiàn)實(shí) (VR) 的重要推手,NVIDIA 特為 hTC VIVE 等 VR 設(shè)備創(chuàng)造名為"Holodeck"的高度逼真、可遵循物理原則之 VR 環(huán)境,以描繪真實(shí)場景;用戶可用它分享數(shù)字內(nèi)容、邀請(qǐng)真人穿梭其中并分派 AI 角色;場中人員的轉(zhuǎn)頭、揮手動(dòng)作皆能忠實(shí)呈現(xiàn),且可感覺到觸碰或疼痛。借用這樣的虛擬會(huì)議室召開產(chǎn)品會(huì)議,可直接將汽、機(jī)車等設(shè)計(jì)圖匯入"Holodeck",讓分散各地的與會(huì)人員彷佛置身同一個(gè)約定空間商討;不僅能透視產(chǎn)品內(nèi)部構(gòu)造、獲悉全部細(xì)節(jié),還可實(shí)時(shí)調(diào)整參數(shù)或變更設(shè)計(jì)外觀、材質(zhì)。
         

        圖1:在"Holodeck"虛擬環(huán)境進(jìn)行產(chǎn)品會(huì)議,有身歷其境之感
        數(shù)據(jù)源:翻攝于 NVIDIA GTC Taiwan 屏幕展示
         
        黃仁勛強(qiáng)調(diào),AI 可解決以往軟件編程無法解決的問題,例如,長時(shí)間做光線追蹤,而 NVIDIA 卻能運(yùn)用深度學(xué)習(xí)來訓(xùn)練自動(dòng)編碼器,完成局部呈現(xiàn)的寫實(shí)影像;每一次的光粒子與表面撞擊到進(jìn)入眼睛的過程需要許多數(shù)學(xué)計(jì)算,若不夠完整,根本無從察覺差異。NVIDIA 與 Remedy 創(chuàng)建一種神經(jīng)網(wǎng)絡(luò),可通過觀看影片、從說話者的語態(tài)模擬當(dāng)時(shí)的 3D 面部表情,做成動(dòng)畫;另與加拿大新創(chuàng)公司 WRNCH 訓(xùn)練網(wǎng)絡(luò)、推論 2D 影片中的人物在 3D 空間里的位置及姿勢,一個(gè)典型應(yīng)用是:只要有攝影機(jī)對(duì)著人、物拍攝,就能瞬間將其轉(zhuǎn)換到 VR 環(huán)境。
         
        此外,愛丁堡大學(xué)的研究人員訓(xùn)練網(wǎng)絡(luò)仿真一個(gè)能適應(yīng)不同環(huán)境與地形的虛擬角色,它會(huì)自行規(guī)劃行進(jìn)路徑并聰明地避開障礙物;而加洲大學(xué)柏克萊分校與 OpenAI 發(fā)明的"一次性模仿學(xué)習(xí)",只須寥寥數(shù)次的示范,就能成功教導(dǎo)機(jī)器人執(zhí)行新任務(wù)。諸如此類,都是人類編程不容易做到的,也呼應(yīng)了黃仁勛稍早"AI is eating Software"的說法。為協(xié)助培植臺(tái)灣本土 AI 產(chǎn)業(yè),NVIDIA 將與科技部合作,提供包括網(wǎng)絡(luò)實(shí)驗(yàn)室與研討課程等實(shí)作訓(xùn)練課程,學(xué)習(xí)如何使用開源框架與 NVIDIA GPU 加速深度學(xué)習(xí)平臺(tái),擬于未來四年培訓(xùn) 3,000 位開發(fā)人員。
         
        Tesla P100 GPU 為服務(wù)器加速,Jetson TX2 聚焦邊緣設(shè)備
        與此同時(shí),國家高速網(wǎng)絡(luò)與計(jì)算中心將組建全臺(tái)第一部專為 AI 打造、搭載 NVIDIA DGX AI 計(jì)算平臺(tái)與 Volta GPU 的超級(jí)電腦,期于明年達(dá)到 4 petaflops 的效能、躋身全球五百大排行榜的前二十五名,預(yù)計(jì)四年內(nèi)上看 10 petaflops。事實(shí)上,NVIDIA 在去年推出搭載 Tesla P100 GPU 加速器、由 124 部 DGX-1 服務(wù)器組成的 DGX SATURNV 超級(jí)電腦,一上市就在 TOP 500 勇奪第二十八名,每秒可執(zhí)行1 quintillion (10 的 18 次方) 次計(jì)算,鎖定高效燃油引擎、完全燃燒核融合反應(yīng)器模型及醫(yī)藥研究等超精密大型應(yīng)用,包括 NVIDIA DRIVE PX 2 自駕車。
         

        圖2:DGX SATURNV 的計(jì)算能力可更快速訓(xùn)練深度神經(jīng)網(wǎng)絡(luò),創(chuàng)建更智能的 AI
        數(shù)據(jù)源:NVIDIA 官網(wǎng)
         
        DGX-1 整合了深度學(xué)習(xí)軟件、開發(fā)工具及八顆 Pascal 架構(gòu)的 Tesla P100 GPU,可謂是連接 AI 與超級(jí)電腦的橋梁。延續(xù) Pascal 架構(gòu)、于今年第一季新登場的 Jetson TX2 借助"六核異構(gòu)計(jì)算",將整套 AI 系統(tǒng)集成在信用卡大小的電路板上,且耗電不到 7.5W,特別適用于小體積、低功耗的邊緣設(shè)備 (Edge Device),可在商用無人機(jī)、工業(yè)機(jī)械、智慧攝影等終端實(shí)現(xiàn)進(jìn)階導(dǎo)航、影像分類與語音識(shí)別的神經(jīng)網(wǎng)絡(luò)計(jì)算,例如:多合一電腦分享、自動(dòng)偵測商品存量、接合 360°影片做 4K 高畫質(zhì)直播串流服務(wù),或支持小型無人機(jī)的視覺演算。
         
        服務(wù)器、超級(jí)電腦和終端布局完成后,NVIDIA 的研發(fā)腳步并未停歇;為追求更高效計(jì)算 (HPC),今年第二季,NVIDIA 再發(fā)布第七代 GPU 架構(gòu) Volta——采用臺(tái)積電 12nm 制程、集成 210 億顆晶體管以及新的數(shù)字格式和 CUDA 指令,可執(zhí)行 4×4 矩陣計(jì)算、支持 250 個(gè)應(yīng)用程序,首款 GPU 代表作是 Tesla V100;一部搭載 Tesla V100 GPU 的服務(wù)器效能,號(hào)稱足以頂替市售搭載數(shù)百顆 CPU 的傳統(tǒng) HPC 電腦,跨越深度學(xué)習(xí)的 100 TFLOPS 效能"天塹"(官方數(shù)據(jù)為 120 TFLOPS),為 AI 訓(xùn)練 (Training) 和推論 (Inference) 提供更高的浮點(diǎn)計(jì)算效能。
         
        Volta 應(yīng) HPC 而生,Tesla V100 未演先轟動(dòng)
        黃仁勛指出,傳統(tǒng) HPC 目前只有不到 10% 有搭載加速器,市場成長空間極大,而 CUDA 已成 HPC 的基礎(chǔ)核心。Tesla V100 能支持語音助理、個(gè)人化搜尋與建議系統(tǒng)等高度精準(zhǔn) AI 服務(wù),還能加速 HPC 與繪圖作業(yè)且具備擴(kuò)充性;若將 DGX-1 AI 超級(jí)電腦連接八個(gè) Tesla V100 GPU,可使深度學(xué)習(xí)能力再翻倍。此外,NVDIA 還另行開發(fā)名為"NVLink"的高速互連通訊接口以加快多個(gè) GPU 之間、或與 CPU 的溝通,并與三星共同開發(fā)數(shù)據(jù)傳輸率達(dá) 900 Gbps 的 HBM2 DRAM 內(nèi)存,為大型數(shù)據(jù)中心組建"HGX 參考架構(gòu)"以推動(dòng) AI 云計(jì)算。
         

        圖3:HGX 服務(wù)器設(shè)計(jì)將八個(gè) Tesla V100 GPU 加速器通過 NVLink 互連技術(shù),組成混合式立方網(wǎng)絡(luò) (hybrid cube mesh)
        數(shù)據(jù)源:NVIDIA 提供
         
        意識(shí)到公有云市值已達(dá) 250 億美元,蘊(yùn)含驚人商機(jī);NVIDIA 早在 2010 年便與 Amazon AWS 推出首款針對(duì) GPU 進(jìn)行優(yōu)化的云端實(shí)例;Facebook 的 Caffe 2、PyTorch 與 Google 的機(jī)器學(xué)習(xí)、高效計(jì)算和數(shù)據(jù)分析,以及 Microsoft 的 Azure N 系列、Project Olympus 和 Cognitive 工具套件,亦見 NVIDIA 蹤跡,并相繼宣示將升級(jí)至 Volta。美國橡樹嶺國家實(shí)驗(yàn)室將于明年問世的科研超級(jí)電腦 Summit,也以 Volta GPU 作為計(jì)算核心。中國市場亦大有斬獲,百度云及智慧駕駛、騰訊的語音/相片/視訊及騰訊云的深度學(xué)習(xí)平臺(tái),也是 NVIDIA 伙伴。
         
        黃仁勛預(yù)期,AI 會(huì)將信息注入 2,000 萬個(gè)云服務(wù)器、上百億萬計(jì)的車輛及工業(yè)機(jī)器人,最終,高達(dá)一兆個(gè)物聯(lián)網(wǎng) (IoT) 設(shè)備與各種傳感器將會(huì)智能監(jiān)控一切,從人體心跳、血壓,到工廠設(shè)備的振動(dòng);就算不上公共網(wǎng)域,也會(huì)在局網(wǎng)中運(yùn)行,將收集到的數(shù)據(jù)匯入神經(jīng)網(wǎng)絡(luò)里。雖然百度、騰訊和京東的數(shù)據(jù)中心也是 AMD EPYC 處理器的用戶,不久前更傳出阿里巴巴和百度有意采用 AMD Radeon Instinct GPU 加速器做深度學(xué)習(xí)的消息,對(duì) NVIDIA 的 Tesla P100 GPU 可能造成威脅,不過 NVIDIA 回應(yīng),挾著多年生態(tài)系耕耘優(yōu)勢,對(duì)自家產(chǎn)品仍信心十足。
         
        云 NVDocker 容器,免去開發(fā)者編譯困擾
        "深度學(xué)習(xí)的軟件堆棧相當(dāng)復(fù)雜,包括計(jì)算、系統(tǒng)、網(wǎng)絡(luò)資源分配、中間件、函式庫到各式算法,且以等比級(jí)數(shù)的速度成長",黃仁勛說。考慮到開發(fā)者有各自偏好的架構(gòu)及工具,在編譯 (Compiler) 時(shí)或?qū)⒃庥霭姹炯嫒菪詥栴},NVIDIA 特針對(duì)"訓(xùn)練"必要的模型及網(wǎng)絡(luò)架構(gòu),為每個(gè)堆棧創(chuàng)造 NVDocker 容器;通過 CUDA 加速,將經(jīng)過優(yōu)化、測試的堆棧全數(shù)儲(chǔ)存于 NVIDIA GPU 云容器注冊表 (NGC)。開發(fā)者上網(wǎng)注冊就能下載、導(dǎo)入至內(nèi)建 CUDA 芯片的數(shù)據(jù)中心、工作站或個(gè)人電腦。最重要的是,NVIDIA 承諾會(huì)永久維護(hù),讓內(nèi)容保持在最新狀態(tài)。
         

        圖4:NGC 是 GPU 加速云平臺(tái),開發(fā)者可通過本地網(wǎng)絡(luò)、Amazon EC2 或其他云平臺(tái)提供商的深入學(xué)習(xí)框架,快速入門
        數(shù)據(jù)源:NVIDIA 提供
         
        黃仁勛剖析,深度神經(jīng)網(wǎng)絡(luò) (DNN) 結(jié)合多個(gè)演算式及上百萬個(gè)參數(shù),是非常龐雜的檔案,可能應(yīng)用在大型數(shù)據(jù)中心、也可能是小型機(jī)器手臂或單純的程序堆棧指令,而未來大部分的節(jié)點(diǎn)都將用于"推論"。推論設(shè)備大爆炸的結(jié)果是:整個(gè)地球?qū)⒈簧窠?jīng)網(wǎng)絡(luò)包圍,無遠(yuǎn)弗屆;這些堆棧須在大大小小的不同應(yīng)用平臺(tái)運(yùn)行,例如:麥克風(fēng)、機(jī)器人、自駕車或超級(jí)電腦中心,將迫使各式網(wǎng)絡(luò)不斷成長,故推論平臺(tái)須具備可編程特性及擴(kuò)展性以因應(yīng)多元且不斷升級(jí)的網(wǎng)絡(luò)架構(gòu),而新架構(gòu)、更深層的網(wǎng)絡(luò)與神經(jīng)網(wǎng)絡(luò)層設(shè)計(jì),又將持續(xù)增進(jìn)卷積神經(jīng)網(wǎng)絡(luò) (CNN) 效能。
         
        AI 推論大爆發(fā),計(jì)算之外……編譯也要加速
        用于分類的循環(huán)神經(jīng)網(wǎng)絡(luò) (RNNS) 以及長短期記憶 (LSTM) 的辨識(shí)語句與翻譯效能已超越人類,而生成對(duì)抗網(wǎng)絡(luò) (GAN) 利用一個(gè)可被訓(xùn)練用于偵測的判別器、以及另一個(gè)用于制造事例來欺騙判別器的生成器,可完美產(chǎn)生影像、聲音并除噪。為方便不同設(shè)備的編譯加速,NVIDIA 另推全球首款可編程推論加速器 TensorRT,會(huì)依據(jù)目標(biāo)應(yīng)用適度移除神經(jīng)網(wǎng)絡(luò)上不必要的元素,并善用指令將復(fù)雜架構(gòu)重新堆棧融合 (Fusion),執(zhí)行多串流 (Multi- Stream)。第三代 TensorRT3 便是沖著 CUDA GPU 神經(jīng)網(wǎng)絡(luò)而來,利用 CUDA 深度學(xué)習(xí)指令創(chuàng)建運(yùn)行時(shí)間并優(yōu)化數(shù)值精準(zhǔn)度、分層和張量。
        黃仁勛認(rèn)為,深度學(xué)習(xí)模型須先行將電腦優(yōu)化,才能在低延遲、高吞吐量、低功耗、少量內(nèi)存的情況下進(jìn)行推論。不久的將來,數(shù)據(jù)中心內(nèi)每個(gè)查詢與工作負(fù)載都將包含一個(gè)或多個(gè) DNN 推論,而推論的吞吐量會(huì)直接反應(yīng)在數(shù)據(jù)中心的總持有成本 (TCO) 上。例如,CPU+TensorFlow 每秒可處理 140 個(gè)圖像,但 Tesla V100+TensorRT 每秒可處理 5,700 個(gè)、足足快了 40 倍,語音更快上 150 倍,意謂每個(gè) V100 服務(wù)器可省下約 50 萬美元的成本。
         

        圖5:TensorRT 可用于快速優(yōu)化、驗(yàn)證和部署訓(xùn)練有素的神經(jīng)網(wǎng)絡(luò),包括大型數(shù)據(jù)中心、嵌入式系統(tǒng)或汽車平臺(tái)
        數(shù)據(jù)源:NVIDIA 官網(wǎng)
         
        AI 下個(gè)重頭戲:自駕車
        黃仁勛主張,通過價(jià)值功能取向的試誤及獎(jiǎng)懲做強(qiáng)化學(xué)習(xí),在不斷嘗試后,最終機(jī)器人一定能把任務(wù)學(xué)好;而將深度學(xué)習(xí)軟件與服務(wù)結(jié)合,NVIDIA 有信心做出史上第一輛沒有駕駛和方向盤的真正無人車。他預(yù)告:"自主機(jī)器世代即將來臨!自駕車就是第一個(gè)自主機(jī)器人。傳感器、人工智能與節(jié)能的 CUDA GPU 將為自主機(jī)器打開一個(gè)新世界"。為符合自駕車"Fail-Safe Operator"要求 (即使當(dāng)機(jī)仍要正常運(yùn)作),NVIDIA 的策略是在數(shù)據(jù)中心里訓(xùn)練神經(jīng)網(wǎng)絡(luò),用超級(jí)電腦仿真所有哩程——DRIVE PX PEGASUS 是全球首部專為量產(chǎn)自駕出租車所打造的電腦。
         
        "這個(gè)超級(jí)計(jì)算數(shù)據(jù)中心僅有車牌大小,可放在后車箱做 ASIL 安全等級(jí)測試,320 TOPS 計(jì)算效能的功耗只有 500W",黃仁勛介紹。最后,他總結(jié) AI 趨勢:繼產(chǎn)業(yè)自動(dòng)化后,將迎向"自動(dòng)化的自動(dòng)化"(機(jī)器自己寫軟件);為此,NVIDIA 備有五大策略因應(yīng):

        ●JETSON 自主機(jī)器平臺(tái):超級(jí)電腦的 baby,用于終端設(shè)備;
        ●JetPack SDK:專為 JETSON 設(shè)計(jì)的整合軟件開發(fā)工具包;
        ●DIGITS 應(yīng)用程序:專為訓(xùn)練神經(jīng)網(wǎng)絡(luò)、或?qū)腩A(yù)先訓(xùn)練過的網(wǎng)絡(luò)所設(shè)計(jì);
        ●Isaac 虛擬實(shí)驗(yàn)室:機(jī)器人在其中被創(chuàng)造并學(xué)習(xí)將任務(wù)做到盡善盡美;
        ●深度學(xué)習(xí)機(jī)構(gòu):機(jī)器人模擬環(huán)境平臺(tái),可訓(xùn)練打高爾夫球等高難度動(dòng)作。通過機(jī)械原理、傳感器與傳動(dòng)設(shè)備,搭配精準(zhǔn)的環(huán)境模型與物理仿真,訓(xùn)練過后的類神經(jīng)網(wǎng)絡(luò)可被下載并導(dǎo)入真實(shí)世界使用。
        主站蜘蛛池模板: 亚洲AV永久无码区成人网站| 国产成人一区二区三区免费视频| 亚洲啪啪AV无码片| 四虎精品免费永久免费视频| 免费国产a国产片高清| 亚洲风情亚Aⅴ在线发布| 大香人蕉免费视频75| 亚洲综合偷自成人网第页色| 91成人免费观看网站| 天天爽亚洲中文字幕| 国产高清视频在线免费观看| 国产偷国产偷亚洲清高APP| 免费在线看片网站| 91av免费在线视频| 久久青青成人亚洲精品| 最近中文字幕大全中文字幕免费| 亚洲最大免费视频网| 卡1卡2卡3卡4卡5免费视频| 337p日本欧洲亚洲大胆人人 | 一区二区在线视频免费观看| 亚洲午夜福利精品无码| 国产在线精品观看免费观看| 亚洲免费视频在线观看| 最近的中文字幕大全免费版| 国产精品亚洲а∨无码播放不卡| 亚洲一区视频在线播放| 免费无码VA一区二区三区| 国产亚洲精aa在线看| 亚洲精品偷拍视频免费观看| 鲁丝片一区二区三区免费| 亚洲三级在线播放| 亚洲成AⅤ人影院在线观看| 免费黄网站在线看| 学生妹亚洲一区二区| 久久久久亚洲AV成人网人人软件 | 在线看无码的免费网站| 亚洲一区二区三区91| 4338×亚洲全国最大色成网站| 毛片免费全部播放无码| 美女扒开尿口给男人爽免费视频| 亚洲高清专区日韩精品|