今年以來,肺炎疫情重傷不少產業,卻意外讓某些科技應用成為受惠者,機器視覺 (Machine Vision) 便是其一。研調機構 ReportLinker 日前大幅上修市場估值,推測今年全球機器視覺市值達 80 億美元,2027 年將增至 177 億美元,期間年復合成長率 (CAGR) 為 12%。與此同時,"3D"機器視覺系統之 CAGR 高于整體平均值、達 13.96%,2025 年達 26 億美元,硬件占比最大、但軟件增長較快。分眾市場歸因"智能相機"帶動——集成傳感器、處理器、相機到電腦的接口和鏡頭,以及可編程自動化控制器與人機接口。
意即:將攝像頭、處理器到 I/O 設備的所有組件都嵌入在一個小盒子中。這些系統由帶有集成視覺軟件的嵌入式控制器組成,該控制器直接連接到一個或多個攝像頭,這些攝像頭的圖像分辨率、大小和成像速率可能有所不同,主要參與者是:奧姆龍 (OMRON)、恩基思 (Keyence)、康耐視 (Cognex)、巴斯勒 (Basler AG)、美國國家儀器 (National Instruments)、ISRA Vision AG、TKH 集團、Stemmer Imaging、MVTec Software GmbH 和 Tordivel AS。康耐視近日即推出首款 In-Sight D900 嵌入式視覺系統——在 In-Sight 工業級智能相機內嵌自有 ViDi 深度學習軟件。
圖1:康耐視 In-Sight D900 智能相機采用的 In-Sight ViDi 軟件,專為執行深度學習應用而設計
恩智浦發表用于 MCU 的 Glow 神經網絡編譯程序
搶攻"邊緣 AI"有成的恩智浦半導體 (NXP) 援引 TIRIAS Research 研調數據表示,至 2025年,約有 98% 的邊緣設備將使用某種形式的機器學習 (ML)/AI;即使沒有專用的機器學習加速器,屆時也將有 180~250 億部設備具有機器學習功能。這意味著:消費型設備制造商和嵌入式物聯網 (IoT) 開發者需將機器學習框架優化,以便在微控制器 (MCU) 實現低功耗的邊緣嵌入式應用。看準此一商機,恩智浦發表業界首款用于 MCU 的 Glow 神經網絡編譯程序 (Neural Network Compiler),并已整合到自家 eIQ 機器學習軟件開發環境。
Glow 編譯程序最初是由臉書 (Facebook) 所開發的開源小區項目,旨在與特定目標整合、省卻實時編譯程序、生成高度優化代碼,進而提升硬件平臺的神經網絡效能。GitHub 的標準版 Glow 可直接在任何設備上運行,讓用戶可靈活針對安謀 (Arm) Cortex-A/Cortex-M 核心與 RISC-V 等架構編譯神經網絡模型核心;而恩智浦是首家針對 MCU 提供高于 Glow 標準版 2~3 倍效能的半導體供貨商,于 MCUXpresso 軟件開發工具包 (SDK) 免費提供,適用于 Arm Cortex-M 核心和楷登電子 (Cadence) Tensilica HiFi 4 DSP 的神經網絡操作數庫。
eIQ 機器學習軟件,助陣邊緣 AI 高效推論
恩智浦將 Arm CMSIS-NN 軟件庫納入 elQ 中,目的是盡可能提升效能并減少 Arm Cortex-M 核心上的神經網絡內存占用;Glow 整合到恩智浦 eIQ 后,可在 i.MX RT 跨界微控制器——RT685、RT1050 和 RT1060,以及 i.MX 8 應用處理器 (AP) 進行擴展和高效推論,用以開發語音應用、物體/臉部辨識等應用。恩智浦面向邊緣 AI 開發環境的策略是:提供全方位工具套件 (toolkit),包括開發者迫切需要的建模。eIQ 目前可支持 Glow 和 TensorFlow Lite 推論,并且會定期執行基準檢驗以衡量其效能。
圖2:恩智浦發表用于微控制器 (MCU) 的 Glow 神經網絡編譯程序,為邊緣視覺和語音之機器學習應用帶來諸多優勢
資料來源:恩智浦提供
恩智浦還強調邊緣智能設備應重視"安全連結",包括安全啟動信賴起點、芯片內建加密、安全布建、相互設備驗證、安全設備管理、空中更新 (OTA) 或無線安全更新與生命周期管理。恩智浦旗下 i.MX 8M Plus 具備進階 EdgeLock 嵌入式安全 (含資源域控制器、信任區、HAB、加密啟動、使用 RSA 的公鑰加密與橢圓曲線算法),為邊緣 AI 再加一層防護;可擴充的 EdgeLock 組合涵蓋安全組件、安全驗證器、應用處理器嵌入式安全和 MCU,為邊緣節點提供完整性、驗證確實性和隱私,并保證邊緣到網關 (Gateway)、云端的安全性。
集成 IGP 的"智能視覺傳感器"引發關注
除了智能相機,進一步內嵌整合圖像處理器 (Integrated Graphic Processor, IGP) 的"智能視覺傳感器"正引起關注,讓芯片可實時在手機等"邊緣設備"進行分析、分類、判讀圖像,亦可即興創意編輯。好處是:可在數據進入主設備的存儲或處理管道前,將所有不必要或不需要的數據丟棄,減少處理負載且更有隱私、安全保障。對此,近來在嵌入式系統聲勢漸壯的安森美半導體 (ON) 認為,類畫素數組芯片所獲取的信號可利用傳感器中的 AI 處理,無需高性能處理器或外部內存奧援,有助發展邊緣 AI 系統。
安森美工業影像傳感器部大中華區營銷經理陶志指出,AI 影像傳感器是將分析和處理整合在 CMOS 影像傳感器中,并在傳感器集成用于影像識別的底層或輕算力的卷積神經網絡層 (CNN),以及帶有內存的數字矩陣乘法計算單元體系;如此一來,傳感器輸出的是"元數據"(Metadata,又稱為:詮釋數據、中介數據、元數據、后設數據等),屬于影像數據的語義信息而非影像信息,可減少數據量并避免隱私爭議。她提醒,畫素越高的智能影像傳感器,需要更大的數據量、更強的計算單元,功耗和存儲空間也會相應增加。
照片人物:安森美半導體工業影像傳感器部大中華區營銷經理陶志
AI 機器視覺,因時空制宜
因此,AI 機器視覺需加以綜合考慮。另一方面,當使用傳統 CMOS 影像傳感器拍攝視頻時,必須發送每個單獨數據幀予 AI 單元處理,導致數據傳輸量增加且難以實時處理。整合高速 AI 處理功能的傳感器,能在單一視頻幀中完成整個過程,讓"在錄制影片的同時提供高精度、實時的目標跟蹤功能"成為可能。用戶能將自己選擇的 AI 模型寫入嵌入式內存中,并可根據用戶要求或系統使用位置等條件對其進行重寫和更新。例如,在零售商場安裝整合智能視覺傳感器的多個攝像頭時,應用可橫跨不同的時間、地點 (環境) 或目的。
安裝在商場入口時,可統計訪客數量;在商店貨架,可用來檢測庫存短缺情況;在商場天花板,可用于繪制商店訪客熱圖 (檢測客戶聚集的位置) 等。陶志深入闡述,為滿足 AI 訓練和推論的快速、高效、精準能力,在提升影像傳感器性能之余,豐富的成像信息整合也可增強 AI 性能,且逐漸成為系統做出明智決策的關鍵。隨著 AI 發展,演算力正面臨前所未有的挑戰,分類系統設計需要功能強大的 GPU 或 TPU 神經網絡處理器。訓練過程因涉及海量大數據和復雜的深度神經網絡結構,計算規模非常龐大,通常由 GPU 或云端完成。
"影像感測+AI 處理"雙管齊下,安森美強勢登場
例如,由基于安森美半導體 AR1335 1300 畫素 CMOS 影像傳感器的相機系統、NVIDIA Xavier Edge GPU、MobileNetV2 的 TensorRT 版本組成 AI 系統,在六個類別訓練 CNN 以辨別新鮮或腐爛的蘋果、橙子、香蕉,推理精度達 97%。推理部署的計算量雖較訓練環節少,但仍涉及大量矩陣計算。面對深度學習之訓練和推斷的演算力需求,需要高功率 GPU/TPU 以實現低延遲。陶志總結,AI 要能"自動、有意識地"應對變化,系統須配備 VGA 規格、高性能鏡頭、高科技照明,自動調節光源亮度、自動對焦至適合穩定檢測的狀態,以清晰拍攝目標工件。
圖3:安森美 AR1335 采用 1.1µm 畫素背照式 (BSI) 技術以及領先的靈敏度、量子效率和線性阱 (linear trap),提供出色的微光影像質量
資料來源:安森美提供
安森美通過投資多種傳感器和 AI 處理技術,在產業占有一席之地——從僅有 RGB 三元色組成的成像系統到添加詳細光譜特征,協助辨識 RGB 力有未逮的部分,且使用 12 位的影像數據提高影像精度,從 X、Y 二維定位信息進化到將深度像元技術或毫米波 (mmWave)/光達 (LiDAR) 與影像融合后獲取深度信息,以了解檢測對象的全部體積、大小、高度等信息,實現深度學習。安森美的 Super Depth 像元技術、RGBIR 多光譜技術、基于單光子雪崩二極管 (SPAD) 和硅光電倍增管 (SiPM) 的傳感器等,為工業、汽車、消費類應用提供優異解決方案。
ST"全局快門"高速影像傳感器,攝像無失真
意法半導體 (ST) 則針對智能機器視覺推出"全局快門"(Global Shutter) 高速影像傳感器——VD55G0 (640X600) 和 VD56G3 (1124X1364),具備低寄生感亮度 (PLS)、高量子效率 (QE) 和低串擾三大優勢;其中,VD56G3 的嵌入式光流處理器可計算動作向量,不需使用主處理器。ST 主張,當移動或需要近紅外線照明的場景時,相較于依序逐步擷取畫素數據、須經校正的"卷簾快門"(Rolling Shutter),同時保存每格畫面所有畫素數據的全局快門是拍攝無失真影像的首選模式,適合擴增/虛擬現實 (AR/VR)、同時定位和地圖建置 (SLAM) 及 3D 掃描。
ST 結合創新 40nm 硅工藝與第三代"完全深溝隔離"(DTI) 先進畫素架構,可在單層背照式 (BSI) 芯片實現 2.61μmX2.61μm 超小畫素,節省光學傳感器和底部芯片之信號處理電路的垂直堆棧空間——頂層傳感器畫素數組更小、底層可騰出更多硅面積以增加數字程序處理能力及功能,包括"全自主式低功率光流模塊"——當速率為 60fps 時,能計算 2,000 個動作向量。"嵌入式向量數據"的輸出對 AR/VR 或機器人定位、引導十分有用,于處理能力有限的主機系統更是幫助良多。上述影像傳感器還支持"全照明控制"等多項感測環境設置。
圖4:同時保存每格畫面所有畫素數據的"全局快門"是拍攝無失真影像的首選模式
資料來源:ST 提供
云端訓練"輕量版"ML 模型回饋至 MCU
雖然邊緣設備的就地處理能力日漸茁壯,但礙于有限計算和存儲資源,現階段仍多以推論或類似"學前教育"的預處理為主;巨量數據的訓練,還是偏好在云端進行。為此,Edge Impulse 公司另辟一種商業模式:導將收集到的傳感器數據送到云端 ML 模型訓練、予以簡化后,再回頭部署至 Arm Cortex-M 之傳感器、智能插座/燈泡或穿戴設備等嵌入式設備,將精簡過的"輕量版"模型導入各大 MCU 硬件平臺,已與 Arduino、ST、Eta Compute 簽署協議,首批在列硬件平臺如下:
●Arduino Nano 33 BLE Sense 和其他 32 位 Arduino 開發板;
●ST B-L475E-IOT01A IoT 探索套件;
●Eta Compute ECM3532 AI 傳感器板;
●帶有STM32H7 Cortex-M7 MCU 的 OpenMV Cam H7 Plus (尤適用 TinyML);
●Seeed Studio 帶有 SAMD51 Cortex-M4 微控制器的 Wio 終端。
付費用戶還可使用云端追蹤和共享功能,進一步針對特定用例調整模型。至于邊緣設備的系統整合,臺灣工研院機械所副組長張彥中分享,有些工控系統商把瑕疵檢測算法做在相機里,買來即可用;定位和導引是移動機器人的關鍵技術之一,英特爾 (Intel) 等廠商已嘗試將無人搬運車 (AGV) 的傳感器結合深度攝像頭和定位算法,但要上線執行任務還須搭配導航功能。使用者在意的是穩定度、可靠度和強健性 (Robustness),這其實難度很大,實驗室的樣本測試有其極限、不一定能發現;若喂入的數據有所偏頗,AI 訓練出來的結果可能存在偏見。
張彥中透露,工控對上線可靠度的要求高,取得大量數據訓練加上嘗試錯誤的強化學習 (reinforcement learning) 或有幫助。工研院新近展示的"AI 自動標注系統"即借助虛實整合系統 (CPS) 實現:以虛擬攝像頭拍攝真實對象的形態并取得位置,產生各種擺放方式、很快產生測試數據,再喂給 AI 模型做訓練;因為電腦一秒鐘可傳送上萬筆經過標注的數據,比人工操作高效許多。對于工業應用的機器視覺而言,瑕疵檢測和對象辨識的正確率、姿態預測、位置誤差都是重要指針;而隨著技術成熟、組件成本下降,3D 感測應用將越見蓬勃。
照片人物:工研院機械所副組長張彥中