當(dāng)前位置： CompoTech China > 專題 > 專題報(bào)道 >

Microsemi：提高辨識(shí)率與有效距離，音頻觸發(fā)用途廣

本文作者：任苙萍點(diǎn)擊： 2017-07-17 12:22

前言：

效應(yīng)3：音頻處理器為聲控做第一線把關(guān)

亞馬遜 (Amazon) Alexa 的風(fēng)行，顯示＂語(yǔ)音＂已成物聯(lián)網(wǎng) (IoT) 重要人機(jī)接口 (HMI)；然而用語(yǔ)音發(fā)號(hào)施令的先決條件是：語(yǔ)音設(shè)備須有良好的模擬接收前端 (AFE) 以及處理能力，才能提高辨識(shí)率，而＂雞尾酒會(huì)效應(yīng)＂(Cocktail Party Effect) 一直是聲控專業(yè)埋首研究的重點(diǎn)，希望仿效人類聽力具有選擇性的原理，突破語(yǔ)音識(shí)別盲點(diǎn)——盡管背景一片喧囂，還是能聽到想聽的內(nèi)容。擅長(zhǎng)模擬／數(shù)字混合 IC 及客制化系統(tǒng)單芯片 (SoC) 的美高森美 (Microsemi)，利用 FPGA 可現(xiàn)場(chǎng)編程、升級(jí)特性所開發(fā)的＂Timberwolf＂音頻處理器，就是一個(gè)關(guān)鍵組件。

Timberwolf音頻處理器，智能辨識(shí)主聲源方位，收音更清晰
Timberwolf 具備可運(yùn)行三組＂同步聲學(xué)回聲消除器＂(AEC) 的特殊硬件加速器，能＂摒除雜念＂、采樣干凈聲源——即使相距 4、5 公尺之遙，也能去除周遭電視、冰箱及冷氣機(jī)等家電噪音、或閑雜人畜的嘈雜聲，將主聲源確實(shí)收錄進(jìn)去。Microsemi 語(yǔ)音事業(yè)部營(yíng)銷暨應(yīng)用總監(jiān) Shahin Sadeghi 介紹，基于＂Timberwolf＂音頻處理器所開發(fā)的模塊，可應(yīng)用在各式 IoT 設(shè)備，例如：結(jié)合視頻建置門禁系統(tǒng)。此外，用戶可通過(guò)內(nèi)建 Timberwolf 的語(yǔ)音器件聲控家電、照明，或與手機(jī)結(jié)合進(jìn)行遠(yuǎn)距對(duì)話，為一心多用、分身乏術(shù)的使用者＂解放雙手＂。

照片人物：Microsemi 語(yǔ)音事業(yè)部營(yíng)銷暨應(yīng)用總監(jiān) Shahin Sadeghi

Sadeghi 認(rèn)為，在本地場(chǎng)域運(yùn)用聲控的機(jī)會(huì)遠(yuǎn)比對(duì)外連接到云端多；＂我們的使命是專注于聲音擷取，確保語(yǔ)音從模擬前端到節(jié)點(diǎn)設(shè)備的通信質(zhì)量，順利將指令后送到區(qū)域內(nèi)網(wǎng)或云端，但不涉及聯(lián)外指令編碼的工作＂，他詳述 Microsemi 在 IoT 語(yǔ)音應(yīng)用的居間作用。特別一提的是，為辨識(shí)聲源方向，通常須采用多個(gè)麥克風(fēng)陣列實(shí)現(xiàn)；例如，Amazon Echo 內(nèi)嵌 6+1 麥克風(fēng)陣列，可提示不同聲源的喚醒方向，但第一代 Google Home 只有兩個(gè)麥克風(fēng)，僅能顯示是否正在偵聽、卻無(wú)法獲悉方向。然而，Timberwolf 只需單一麥克風(fēng)就能搞定＂指向性＂問題。

Timberwolf 配備壓縮器／限幅器／擴(kuò)展器 (CLE) 之麥克風(fēng)拾音算法，以及波束成形 (Beamforming)、全雙工雙向音頻、定態(tài)／非定態(tài)噪聲抑制技術(shù)，可提升語(yǔ)音控制／辨識(shí)的有效距離，并為 IoT 產(chǎn)品營(yíng)造更多附加價(jià)值。智能家電只需建置一組麥克風(fēng)，輔以算法便可偵測(cè)、辨識(shí)玻璃碎裂或火警等特殊音頻，變身居家保全；一旦有異狀，可傳送警示到終端使用者的手機(jī)。為避免誤動(dòng)作，系統(tǒng)會(huì)在異常音頻出現(xiàn)三次后才警示。＂現(xiàn)階段，煙霧與門窗侵入警示是標(biāo)配選項(xiàng)，亦可對(duì)門鈴聲、嬰兒啼哭、動(dòng)物吠叫等在算法做客制化反饋＂，Sadeghi 補(bǔ)充。

圖1：Timberwolf ZL38063 最多可支持六個(gè)麥克風(fēng)陣列
資料來(lái)源：Microsemi 官網(wǎng)

難能可貴！與 Alexa 對(duì)答如流，吸引通信服務(wù)運(yùn)營(yíng)商目光
為降低組件的兼容性風(fēng)險(xiǎn)、讓用戶在設(shè)計(jì)及采購(gòu)上有更多元的選擇，Microsemi 已與多家模擬／數(shù)字麥克風(fēng)的制造商完成產(chǎn)品匹配驗(yàn)證；Timberwolf 音頻處理器有多種封裝版本，亦能應(yīng)用到汽車、工業(yè)等自動(dòng)化場(chǎng)域，但聲音數(shù)據(jù)庫(kù)會(huì)相對(duì)復(fù)雜。經(jīng)過(guò)親身體驗(yàn)，Sadeghi 在日前 COMPUTEX 2017 與 Alexa 互動(dòng)，的確要比同場(chǎng)其他參展設(shè)備要敏捷許多；即使正在播放音樂或有電視等其他聲源干擾，依然可對(duì)答如流、或遵從指示聲控音頻設(shè)備的音量，完全顛覆有些實(shí)機(jī)演示給人沉默半晌、呆若木雞，甚至不搭理人的負(fù)面觀感！

Microsemi 另針對(duì) AVS 推出名為＂AcuEdge＂的開發(fā)工具包，零售價(jià)格為 299 美元，已通過(guò) Amazon Alexa 語(yǔ)音服務(wù) (Alexa Voice Service, AVS) 兼容性認(rèn)證，且與樹莓派 (Raspberry Pi, RPi) 相容。它可擴(kuò)展支持兩組麥克風(fēng)的雙向語(yǔ)音通信，實(shí)現(xiàn) 180° 和 360° 拾音，優(yōu)化免持通話質(zhì)量、增強(qiáng)在惡劣音頻環(huán)境識(shí)別 Alexa 喚醒字的能力；另一方面，＂打斷＂功能允許用戶在播放音頻時(shí)中斷 Alexa 設(shè)備。AcuEdge ZLK38AVS 開發(fā)工具包搭載 Microsemi ZL38063 Timberwolf 音頻處理器，讓開發(fā)者能便捷創(chuàng)建高質(zhì)量語(yǔ)音識(shí)別接口的電路原型，并進(jìn)行相關(guān)演示。

圖2：ZL38063 Timberwolf 音頻處理器區(qū)塊圖
資料來(lái)源：Microsemi 官網(wǎng)

Timberwolf 提供 SPI、I2S 和分時(shí)多任務(wù) (TDM) 等多種連接接口；在樹莓派運(yùn)作 AVS 客戶端和觸發(fā) Alexa 喚醒詞監(jiān)測(cè)的同時(shí)，Timberwolf 也在執(zhí)行各種音頻處理功能。ZL38063 專為電視機(jī)、機(jī)頂盒和智能音箱等懸掛式／桌上型衍生產(chǎn)品而設(shè)計(jì)，預(yù)載雙向語(yǔ)音通信和＂自動(dòng)語(yǔ)音識(shí)別＂(Automatic Speech Recognition, ASR) 輔助算法兩項(xiàng)固件，可針對(duì)特定工作模式運(yùn)作不同固件，在正常運(yùn)行期間動(dòng)態(tài)切換工作模式。Sadeghi 透露，COMPUTEX 展出期間已有多家通信服務(wù)運(yùn)營(yíng)商因有外包硬設(shè)備需求，主動(dòng)參訪 Timberwolf 語(yǔ)音處理方案并表達(dá)高度興趣。

借助 MiTuner ZLS38508 或 ZLS38508LITE GUI 軟件包，可在可視化畫面上設(shè)定路由配置、直觀使用下拉式選單調(diào)整參數(shù)，并在發(fā)送 (Tx) 和接收 (Rx) 音頻信道做功能編程及設(shè)置模擬／數(shù)字增益。另額外選配 ZLE38470BADA 自動(dòng)調(diào)試套件，提供自動(dòng)調(diào)試和簡(jiǎn)易手動(dòng)微調(diào)功能。

本月熱點(diǎn) HOME

欄目熱點(diǎn) HOME