當前位置: CompoTech China > 專題 > 專題報道 >
         

        AI 加速器到專用處理器,語音應用更直觀

        本文作者:任苙萍       點擊: 2021-02-22 11:01
        前言:
        語音識別正在成為消費者語音助理的重要元素。亞馬遜 (Amazon) 在 2017 年為 Alexa 用戶創建語音配置文件,此后一直在增強該功能;去年夏天,語音助理開始深入用戶聯系信息來個性化與 Alexa 的交互。與此同時,Google 也徹底修改 Google Assistant 的語音匹配功能的設置程序,增加步驟以提高安全性,并在個性化響應時使語音助理更加靈活。去年 9 月,亞馬遜再推"可教學 AI"(Teachable AI) 功能,若遇到 Alexa 不理解的語音命令,用戶可直接通過語音向 Alexa 下達指示、實時傳達定義,無需手動設置偏好或改寫 Alexa 邏輯規則。
         
        圖1:Alexa 能與用戶實時交互式教學,將這些概念推廣到新的上、下文中,并將其與用戶帳戶連結

        語音助理變聰明、且更個性化!
        第一階段將專門用于照明和恒溫器等智能設備,但最終將包括其他類型的命令,其工作原理類似為 Alexa Routines 設置關鍵詞,而非死記硬背的觸發器。Alexa 首席科學家 Rohit Prasad 對此做了演示:"Rohit 的閱讀模式",一開始盲然不解的 Alexa 會主動詢問,在得知定義后將燈光亮度降低至 40%。借助交互式教學,Alexa 會立即學習這些定義和相關操作,并僅將它們儲存供特定用戶使用。對話管理 (dialogue management) 模型會檢查用戶的問題及答案是否在已知范圍內,例如,Alexa 會詢問用戶口中的"學習模式"是什么意思?

        若用戶回答:設置為良好的閱讀亮度水平。模型因無法理解、在每次嘗試定義失敗后,對話管理器會降低后續問題的復雜性。若概念提取模型在幾經詢問后仍無法獲知"學習模式"定義,對話管理器可能會直接追問:能為我提供亮度或顏色數值嗎?最后,"陳述推論"(declarative-reasoning) 模型會預測與用戶陳述話語對應的動作,還可在決定儲存所選動作以備將來重用之前,就其上、下文驗證所選動作的語義是否適當;成功后,先前學習的概念可沿用至相關文本,例如,客廳"學習模式"意味將燈光設置為 50% 亮度時,辦公室也將采用相同概念。
         
        圖2:交互式教學可讓 Alexa 學習"間接表述"
        資料來源:

        MCU 供貨商群起支援 Amazon Voice Service
        Alexa 甚至可被授予人類如何將語句語句視為變相命令,例如,告訴 Alexa 房間太暗了,它會詢問用戶是否要打開燈或窗簾、然后依定義動作。除了自動涵蓋所教概念外,可教學 AI 還允許用戶明確指示 Alexa 忘記最近或所有學到的概念。隨著 Alexa 語音服務 (Amazon Voice Service, AVS) 越來越強大,不少微控制器 (MCU) 供貨商群起響應。意法半導體 (ST) STM32 系列 MCU 皆已整合 Alexa 語音用戶接口軟件,日前再推亞馬遜認證的智能連網設備參考設計套件,開發者可利用 AWS IoT Core 平臺 AVS 功能,在簡易 MCU 研發內建 Alexa 之產品。
         
        圖3:集成 PIC32MZ-W1 Wi-Fi SoC 及可選預配置 Trust&GO 安全組件的 WFI32E01 Wi-Fi MCU 模塊,可與 Amazon Alexa 連接做語音控制
        資料來源:Microchip提供

        STM32 MCU 用戶可自定義和擴充系統設計、增加強化功能,例如:第二個喚醒關鍵詞、附加的本地化命令、聲控圖形顯示。為進一步簡化原型設計和產品研發,參考設計硬件包括一個作為獨立模塊的音頻子板,內含一個 ST FDA903D 音頻編解碼器、用戶 LED 和按鈕,以及兩個間隔 36mm 的 MP23DB01HP MEMS麥克風,適用于尺寸受限的產品,包括小至電源開關插頭。若需專用麥克風間距、聲學特性和用戶接口定義,模塊化硬件還允許用戶自定義子板。即使環境吵雜,麥克風間隔小,音頻前端仍能提供出色的遠場語音偵測功能。
         
        圖4:ST 推出亞馬遜認證的參考設計,簡化 Alexa 內建智能家庭設備開發
        資料來源:ST提供

        微芯科技 (Microchip) 推出首款為云臺身份驗證預先配置和設置的 Trust&Go Wi-Fi 32 位 MCU 模塊——WFI32E01PC,符合 Wi-Fi 聯盟 (WFA) 規范,并獲得美國聯邦通信委員會 (FCC)、加拿大工業部 (IC) 和歐洲無線電設備指令 (RED) 三大世界級監管機構的全面認證,同時與 PIC32MZW1 Curiosity 開發板兼容 (已通過 AWS IoT Core 平臺認證并被列入 AWS 合作伙伴設備目錄),可使用 AVS 與板載傳感器互動。AWS IoT Core 認證平臺包括程序代碼范例、WLAN 軟件以及可在 MPLAB Harmony v3 找到的網絡協議堆棧。

        電池供電的邊緣設備,也能制訂復雜決策
        顯然,語音助理越來越聰明,所肩負的任務越見繁復;于是,開啟了 AI 加速器、乃至專用處理器的采用風潮。美信 (Maxim) 去年底推出帶有神經網絡加速器的 MAX78000 低功耗 MCU,支持電池供電的嵌入式物聯網 (IoT) 設備在邊緣通過快速、低功耗 AI 推論來制訂復雜決策;相較于軟件方案,采用 AI 技術的電池供電系統可大幅延長運行時間,且其成本僅是 FPGA 或 GPU 方案的零頭。MAX78000 核心是專用硬件,旨在最大程度降低卷積神經網絡 (CNN) 的能耗和延遲,且運行時幾乎不需任何 MCU 介入,意味著操作的流暢度極高。

        Maxim 表示,該硬件能量和時間僅用于實施 CNN 的數學計算,執行推論功耗不到 MCU 軟件運行功耗的 1%;若需將外部世界的采集數據高效輸入到 CNN 引擎,可整合 ARM Cortex-M4 或功耗更低的 RISC-V 內核。Syntiant 推出第二代 NDP120 神經決策處理器 (NDP),亦強調電池供電設備的音頻和傳感器應用;內嵌 Syntiant Core 2 靈活的低功耗深度神經網絡推論引擎,以不到 1mW 的功耗同時運行多個應用程序,包括:回聲消除、波束成形、噪聲抑制、語音增強、發言者辨識、關鍵詞識別、多個喚醒詞、事件檢測和本地命令識別。
         
        圖5:Maxim 神經網絡加速器,在電池供電設備中實現復雜的嵌入式決策
        資料來源:Maxim提供

        NDP120 具有高度可配置的音頻前端,適用于遠距離語音濾波和回聲消除,并支持紅外檢測、多軸加速度、傾斜、磁場和壓力等多模式傳感器融合;Syntiant Core 2 是張量處理核心,每一層獨立控制參數、輸入和輸出張量,不影響編程簡便性。NDP120 的可編程數字信號處理器 (DSP) 與高精度推論引擎結合,非常適合創建可在傳統算法和機器學習 (ML) 之間運行的高性能語音命令應用程序。耐能智慧 (Kneron) AI SoC——KL720 NPU 版本,則強調能識別"整個詞典中的單詞",不限特定喚醒單詞;另可重新配置的設計,KL720 NPU 可同時處理圖像和音頻。

        加速器之后,專用芯片崛起
        此外,亞馬遜第四代球形設計 Echo 與第三代 Echo Show 10 皆采用 AZ1 Neural Edge 處理器,專供邊緣設備的機器學習之用,可提供更自然的語音互動體驗并縮短數百毫秒的響應時間。AZ1 Neural Edge 處理器是聯發科技 (MediaTek) 專為"高端音頻處理和語音助理應用"之 MT8512 處理器的要員,可用于了解聲音方向來源,并決定何處、何時、何種速度調整攝影機;集成 2GHz 雙核 CPU,支持各種音頻處理外設及藍牙 5.0/Wi-Fi 5 雙頻連接;配合高性能語音 DSP 使用,可快速、準確地檢測語音命令中的喚醒詞和關鍵詞,提升 Alexa 靈敏度。

        當前的功能包括使用回饋搜索算法來獲取用戶回饋并使用交互來糾正操作中的錯誤,并通過語音直接教導 Alexa,不必借道應用程序 (APP) 或網頁設置。順帶一提,帶顯示器的 Echo Show 10 使用具有計算機視覺 (CV) 的聲源定位 (SSL) 來識別視野中的物體和人,并辨識聲音發自何人?新一代 Echo Show 10 顯示器和攝影機可改變方向并對準空間中的揚聲器,在視頻通話實現更自然的交互,可一面走動、一面聊天或觀看視頻 (須事先儲存個人臉部和聲音特征)。與此同時,云臺服務供貨商 (CSP) 正往專用處理器芯片靠攏,以提升 AI 訓練、推論效能。
         
        圖6:聯發科技 MT8512 專為高階音頻處理和語音助手應用而設計,內部集成亞馬遜 AZ1 Neural Edge 處理器,可在邊緣設備運行強大的推論引擎

        亞馬遜已宣布未來將采用旗下 AWS Inferentia 處理器承擔 Alexa 大部分云臺處理,以加速文本到語音翻譯的大量機器學習。雖然市占較小,但 Google Assistant 在理解自然語言和命令似更勝一籌,且 Google Nest Hub 智能顯示可控制和可視化管理整個智能家居,并識別家中所有成員、提供個性化信息,其專用 TPU 貢獻不小。三星亦采用 Google Cloud 第三代 TPU 訓練自家 Bixby 語音助理 (在全球逾 1.6 億臺設備上運行),使用自動語音識別引擎將用戶語音命令轉換為文本,以減少 AI 訓練時間、縮小模型、降低單字錯誤率并提高運行速度。

        "以用戶為中心",語音識別加速客服流程
        根據 2020 年 eMarketer 的一項研究,美國有 38.5% 的人口使用語音助理連接智能手機或其他小工具,且去年因為居家時間增多,成長率達兩位數。此一趨勢促使主要電商門戶網站開發聊天機器人或使用現有基于語音的集成來增加銷售;肺炎疫情爆發以來,制訂對話商務策略以彌補人際交流,已成商業新手段。亞馬遜宣布將語音識別技術集成到"虛擬聯絡中心"(客服中心) 平臺,旗下 AWS 將使用 AI 來分析員工或客戶的聲音并悄悄確認其身份,作為與客戶交流的工具,并收集和分析有關這些對話的數據。

        通常,企業依靠詢問生日、社會安全/身份證號碼或地址之類的辨識性問題來確認來電者身份;而上述語音 ID 目的是跳過通常很繁瑣的過程,并使得竊取呼叫中的身份更加困難。一旦用戶同意使用語音 ID,該軟件會使用幾秒鐘的通話來分解其語音生物特征,以及音調、節奏之類的卷標元素,然后予以儲存并標記為個人的語音文件以備將來參考。當下次同一人來電并自報姓名,語音 ID 可提取聲紋并將其與當前語音做比對。若匹配無疑,會將呼叫轉移給某一客服人員,不必再確認身份;反之,則將經由標準篩選系統檢查。
         
        圖7:Amazon Connect 是易于使用的全通路云臺聯絡中心,采用全通路設計,為顧客和客服人員提供跨語音和聊天的無縫體驗

        一款專用的 SaaS (軟件即服務) 應用程序 Voice Compass Journeys,利用 NLX Conversational AI 平臺讓使用者無需與人交談、就能經由網頁、短信、電郵、手機、聊天軟件等,用"語音"下達指令。好處是:不必等待接線或復雜選單,且用戶可語音指導自定義控制呼叫速度,創建"以用戶為中心"的自助服務選項,亦有助服務商將 IT 服務臺自動化、創建"旅程樣板庫"以滿足特定客戶需求。利用免費與 Voice Compass 服務集成的軟件開發工具包 (SDK),還可與網站、顧客關系管理 (CRM) 或第三方應用程序及 IoT 硬設備整合。

        "交互式語音商務"新時代揭幕,風險隨之而至
        使用加密聲波、可在任何設備脫機非接觸支付的 ToneTag 公司,將音頻導入支付網關、推出"語音商務";基于語音的支付解決方案利用聲波生成音頻 QR,作為交易媒介及支付信息,支持 Amazon Pay、UPI 和信用卡等主要付款工具,使客戶能在脫機商務獲得交互式、自定義和無縫體驗。用戶只需與他們的行動設備通話即可在咖啡館和快餐店訂購并預付帳款,到店后無需排隊就能取貨。這種"隨時隨地"的個性化脫機零售,儼然是"交互式語音商務"新時代標志。廣告商與內容制作商也正嘗試創建全新的交互式內容體驗。

        英國一家在線廣告平臺 AdTonos 擁有一項名為"YoursTruly"的技術,目的是利用"原生音頻"廣告體驗的巨大且快速增長的潛力。奧迪 (Audi) 交互式音頻廣告首次在商業廣播通過智能揚聲器發布,以預訂奧迪汽車的試駕車或尋找經銷商。該廣告在廣告時段插入一個互動觸發器,聽眾可以語音命令對奧迪廣告做出反應,使語音助理參與并完成所需操作,再返回直播電臺。英國廣播公司 (BBC) 一個名為"檢查室"的試點項目,是一個在亞馬遜 Alexa 運行的交互式科幻故事講述,讓用戶有效扮演其中一個角色,對某些受眾 (尤其是兒童) 頗具吸引力。
         
        圖8:YoursTruly 開發目的是"利用原生音頻廣告體驗的巨大且快速增長的潛力"

        然而,如何針對自然語言搜索優化?如何創建針對答案引擎優化的內容?是兩大挑戰。AI 語音助理正在重塑消費者和企業與數字技術的交互方式;雖然,語音互動應用存在無限可能,也潛藏風險。一項甫在計算機協會嵌入式網絡傳感器系統會議 (SenSys 2020) 發表的研究揭露:即使沒有麥克風,家中掃地機器人等智能家電也可能被黑客竊聽家庭對話!通過遠程訪問光達 (LiDAR) 讀數對 Roborock 進行遠程竊聽攻擊。

        光達可經由獲取屋中垃圾桶等特定物體的反射來捕獲聲音信號,而這個反射物又會因為附近的聲源 (例如人們對話) 而振動。黑客可能會重新利用真空吸塵器的光達傳感器來感知環境中的聲音信號,從云臺遠程采集光達數據并使用深度學習處理原始信號以提取音頻信息。此一弱點恐會揭示電話會議的機密、信用卡信息,或由正在播放的電視節目推估用戶偏好。魔鬼藏在細節里,語音互動是最直觀的觸媒,伴隨而來的操作細膩度與資安風險防護卻不可不慎!
         
         
         
        主站蜘蛛池模板: 青青操免费在线观看| 国产成人高清亚洲一区91| 国产性生大片免费观看性| 狠狠色婷婷狠狠狠亚洲综合 | 美女的胸又黄又www网站免费| 无码中文在线二区免费| 99热亚洲色精品国产88| 免费看少妇作爱视频| 亚洲AV第一成肉网| 亚洲精品色婷婷在线影院| 久久www免费人成精品香蕉| 亚洲va久久久噜噜噜久久天堂| 久久国产乱子伦精品免费不卡| 亚洲欧洲在线观看| 国拍在线精品视频免费观看| 亚洲第一成年网站视频| 免费中文字幕在线| 国产午夜无码片免费| 亚洲欧洲尹人香蕉综合| 日韩a级毛片免费视频| 一区二区三区免费在线视频 | 无码国产精品久久一区免费| 亚洲国产成人久久一区二区三区| 国产一区二区视频免费| 中国一级特黄高清免费的大片中国一级黄色片 | 日本zzzzwww大片免费| 亚洲AV日韩AV永久无码免下载 | 亚洲区小说区图片区QVOD| 最近免费中文字幕大全免费版视频| 亚洲人成777在线播放| 免费**毛片在线播放直播| 花蝴蝶免费视频在线观看高清版| 亚洲精品视频在线播放| 国产一级一片免费播放| 一级毛片不卡片免费观看| 亚洲大码熟女在线观看| 日本亚洲欧洲免费天堂午夜看片女人员| 国产91免费在线观看| 一级毛片在播放免费| 亚洲午夜成激人情在线影院| 亚洲成人高清在线|