亞馬遜 (Amazon) Alexa 的風(fēng)行,顯示"語(yǔ)音"已成物聯(lián)網(wǎng) (IoT) 重要人機(jī)接口 (HMI);然而用語(yǔ)音發(fā)號(hào)施令的先決條件是:語(yǔ)音設(shè)備須有良好的模擬接收前端 (AFE) 以及處理能力,才能提高辨識(shí)率,而"雞尾酒會(huì)效應(yīng)"(Cocktail Party Effect) 一直是聲控專業(yè)埋首研究的重點(diǎn),希望仿效人類聽力具有選擇性的原理,突破語(yǔ)音識(shí)別盲點(diǎn)——盡管背景一片喧囂,還是能聽到想聽的內(nèi)容。擅長(zhǎng)模擬/數(shù)字混合 IC 及客制化系統(tǒng)單芯片 (SoC) 的美高森美 (Microsemi),利用 FPGA 可現(xiàn)場(chǎng)編程、升級(jí)特性所開發(fā)的"Timberwolf"音頻處理器,就是一個(gè)關(guān)鍵組件。
Timberwolf音頻處理器,智能辨識(shí)主聲源方位,收音更清晰
Timberwolf 具備可運(yùn)行三組"同步聲學(xué)回聲消除器"(AEC) 的特殊硬件加速器,能"摒除雜念"、采樣干凈聲源——即使相距 4、5 公尺之遙,也能去除周遭電視、冰箱及冷氣機(jī)等家電噪音、或閑雜人畜的嘈雜聲,將主聲源確實(shí)收錄進(jìn)去。Microsemi 語(yǔ)音事業(yè)部營(yíng)銷暨應(yīng)用總監(jiān) Shahin Sadeghi 介紹,基于"Timberwolf"音頻處理器所開發(fā)的模塊,可應(yīng)用在各式 IoT 設(shè)備,例如:結(jié)合視頻建置門禁系統(tǒng)。此外,用戶可通過(guò)內(nèi)建 Timberwolf 的語(yǔ)音器件聲控家電、照明,或與手機(jī)結(jié)合進(jìn)行遠(yuǎn)距對(duì)話,為一心多用、分身乏術(shù)的使用者"解放雙手"。

照片人物:Microsemi 語(yǔ)音事業(yè)部營(yíng)銷暨應(yīng)用總監(jiān) Shahin Sadeghi
Sadeghi 認(rèn)為,在本地場(chǎng)域運(yùn)用聲控的機(jī)會(huì)遠(yuǎn)比對(duì)外連接到云端多;"我們的使命是專注于聲音擷取,確保語(yǔ)音從模擬前端到節(jié)點(diǎn)設(shè)備的通信質(zhì)量,順利將指令后送到區(qū)域內(nèi)網(wǎng)或云端,但不涉及聯(lián)外指令編碼的工作",他詳述 Microsemi 在 IoT 語(yǔ)音應(yīng)用的居間作用。特別一提的是,為辨識(shí)聲源方向,通常須采用多個(gè)麥克風(fēng)陣列實(shí)現(xiàn);例如,Amazon Echo 內(nèi)嵌 6+1 麥克風(fēng)陣列,可提示不同聲源的喚醒方向,但第一代 Google Home 只有兩個(gè)麥克風(fēng),僅能顯示是否正在偵聽、卻無(wú)法獲悉方向。然而,Timberwolf 只需單一麥克風(fēng)就能搞定"指向性"問題。
Timberwolf 配備壓縮器/限幅器/擴(kuò)展器 (CLE) 之麥克風(fēng)拾音算法,以及波束成形 (Beamforming)、全雙工雙向音頻、定態(tài)/非定態(tài)噪聲抑制技術(shù),可提升語(yǔ)音控制/辨識(shí)的有效距離,并為 IoT 產(chǎn)品營(yíng)造更多附加價(jià)值。智能家電只需建置一組麥克風(fēng),輔以算法便可偵測(cè)、辨識(shí)玻璃碎裂或火警等特殊音頻,變身居家保全;一旦有異狀,可傳送警示到終端使用者的手機(jī)。為避免誤動(dòng)作,系統(tǒng)會(huì)在異常音頻出現(xiàn)三次后才警示。"現(xiàn)階段,煙霧與門窗侵入警示是標(biāo)配選項(xiàng),亦可對(duì)門鈴聲、嬰兒啼哭、動(dòng)物吠叫等在算法做客制化反饋",Sadeghi 補(bǔ)充。
圖1:Timberwolf ZL38063 最多可支持六個(gè)麥克風(fēng)陣列
資料來(lái)源:Microsemi 官網(wǎng)
難能可貴!與 Alexa 對(duì)答如流,吸引通信服務(wù)運(yùn)營(yíng)商目光
為降低組件的兼容性風(fēng)險(xiǎn)、讓用戶在設(shè)計(jì)及采購(gòu)上有更多元的選擇,Microsemi 已與多家模擬/數(shù)字麥克風(fēng)的制造商完成產(chǎn)品匹配驗(yàn)證;Timberwolf 音頻處理器有多種封裝版本,亦能應(yīng)用到汽車、工業(yè)等自動(dòng)化場(chǎng)域,但聲音數(shù)據(jù)庫(kù)會(huì)相對(duì)復(fù)雜。經(jīng)過(guò)親身體驗(yàn),Sadeghi 在日前 COMPUTEX 2017 與 Alexa 互動(dòng),的確要比同場(chǎng)其他參展設(shè)備要敏捷許多;即使正在播放音樂或有電視等其他聲源干擾,依然可對(duì)答如流、或遵從指示聲控音頻設(shè)備的音量,完全顛覆有些實(shí)機(jī)演示給人沉默半晌、呆若木雞,甚至不搭理人的負(fù)面觀感!
Microsemi 另針對(duì) AVS 推出名為"AcuEdge"的開發(fā)工具包,零售價(jià)格為 299 美元,已通過(guò) Amazon Alexa 語(yǔ)音服務(wù) (Alexa Voice Service, AVS) 兼容性認(rèn)證,且與樹莓派 (Raspberry Pi, RPi) 相容。它可擴(kuò)展支持兩組麥克風(fēng)的雙向語(yǔ)音通信,實(shí)現(xiàn) 180° 和 360° 拾音,優(yōu)化免持通話質(zhì)量、增強(qiáng)在惡劣音頻環(huán)境識(shí)別 Alexa 喚醒字的能力;另一方面,"打斷"功能允許用戶在播放音頻時(shí)中斷 Alexa 設(shè)備。AcuEdge ZLK38AVS 開發(fā)工具包搭載 Microsemi ZL38063 Timberwolf 音頻處理器,讓開發(fā)者能便捷創(chuàng)建高質(zhì)量語(yǔ)音識(shí)別接口的電路原型,并進(jìn)行相關(guān)演示。
圖2:ZL38063 Timberwolf 音頻處理器區(qū)塊圖
資料來(lái)源:Microsemi 官網(wǎng)
Timberwolf 提供 SPI、I2S 和分時(shí)多任務(wù) (TDM) 等多種連接接口;在樹莓派運(yùn)作 AVS 客戶端和觸發(fā) Alexa 喚醒詞監(jiān)測(cè)的同時(shí),Timberwolf 也在執(zhí)行各種音頻處理功能。ZL38063 專為電視機(jī)、機(jī)頂盒和智能音箱等懸掛式/桌上型衍生產(chǎn)品而設(shè)計(jì),預(yù)載雙向語(yǔ)音通信和"自動(dòng)語(yǔ)音識(shí)別"(Automatic Speech Recognition, ASR) 輔助算法兩項(xiàng)固件,可針對(duì)特定工作模式運(yùn)作不同固件,在正常運(yùn)行期間動(dòng)態(tài)切換工作模式。Sadeghi 透露,COMPUTEX 展出期間已有多家通信服務(wù)運(yùn)營(yíng)商因有外包硬設(shè)備需求,主動(dòng)參訪 Timberwolf 語(yǔ)音處理方案并表達(dá)高度興趣。
借助 MiTuner ZLS38508 或 ZLS38508LITE GUI 軟件包,可在可視化畫面上設(shè)定路由配置、直觀使用下拉式選單調(diào)整參數(shù),并在發(fā)送 (Tx) 和接收 (Rx) 音頻信道做功能編程及設(shè)置模擬/數(shù)字增益。另額外選配 ZLE38470BADA 自動(dòng)調(diào)試套件,提供自動(dòng)調(diào)試和簡(jiǎn)易手動(dòng)微調(diào)功能。