疫情影響所及,在線會議或遠距教學/醫療再推升語音互動需求,就連音效大師杜比 (Dolby) 也在 Audio 之外,發布可消除背景噪聲和回聲的 Voice 語音工具應市。另有廠商結合飛時測距 (ToF) 傳感器、微機電 (MEMS) 壓電微機械超聲換能器 (PMUT)、數字信號處理器 (DSP) 與支援藍牙低功耗 (BLE) 的微控制器 (MCU),打造出目標追蹤或保持社交距離的解決方案。
就系統層級來看,從接收端到音頻編/譯碼器、軟件算法、DSP、音頻放大器和揚聲器 (喇叭) 的每個環節,都將影響語音互動的結果。于是,擁有更佳音質、靈敏度和定向性,便于從數據獲取上、下文進行有效處理和渲染,且功耗、成本更低、體積小巧的 MEMS 麥克風,越發受到青睞;與此同時,DSP IP 供貨商不斷與各方開源工具和功能軟件算法結盟以擴大市場,另為應對繁復的機器學習 (ML) 訓練、推論任務,也開啟了 AI 加速器、乃至專用處理器的采用風潮。
當聲控躋身人機界面 (HMI) 主流,"語音互聯網"正隱然成形。不過,只是呆板地遵命行事并不夠,現在,語音助理還要善解人意并提供個性化服務,而這有賴自動語音識別 (ASR)、生物特征辨識、遠場音頻處理和聽覺場景技術的加持,以進一步實現自然語言處理 (NLP)、情感檢測及人與設備的無縫交互,也催生新型態的客戶服務、交易支付、營銷手法及內容制作等商業模式;當然,隱私與風險依舊是不可或忘的關注點……。智能語音交互有哪些可能?又有哪些必要思維?