當前位置: CompoTech China > 專題 > 專題報道 >
         

        AI聽覺進化----智能音箱

        本文作者:編輯部       點擊: 2019-01-10 13:10
        前言:
        人類與人工智能進行語音交互的夢想已經很久了,但直到21世紀之初,這個夢想仍然只是在影視作品和游戲中不斷完善。技術進步的道路并非一帆風順,幾代科學家在艱難中不斷探索。科技巨頭們早已在智能語音交互應用中布局,大家都感覺到了智能語音交互時代即將來臨,只是不知以何種方式呈現,直到智能音箱的出現。
         


            從時間上來看,智慧音箱的出現與近些年快速發展的AI技術是同步的,可說是AI市場最為成功的一個落地應用。從2015年不到一百多萬臺,到2018年的一億臺出貨量,智能音箱市場正在大規模爆發……
         
        艱難中前行的語音交互技術
            一直以來,通過語言與機器直接溝通,是很多技術人員追求的目標,可看似簡單的語音交互,卻經歷了長達半個多世紀的技術探索。這期間不管文學還是影視作品,都一次次描繪了人機語音交互的美好場景。但直到21世紀初,人與機器的語音交互仍然是令人抓狂的一種操作,遠遠沒有鍵盤和鼠標來得方便。
         
        原始發展階段
             在1952年,貝爾實驗室研發出了 10 個孤立數字語音的識別系統,為人類的語音識別開啟了篇章;20 世紀 60 年代開始,卡耐基梅隆大學 Reddy 等人開展了連續語音識別的研究,但是相關研究進展緩慢;1969年,經歷了十幾年語音識別研究的貝爾實驗室,也不得不承認在當時的技術條件下,語音識別難度超乎想象,Pierce J在公開信中將語音識別列為短期內難以突破的技術難題。但是科學界仍然在尋找語音識別的突破方法。
         
            20世紀80年代開始,以隱馬爾可夫模型(hidden Markov model,HMM)方法為代表的基于統計模型方法逐漸在語音識別研究中占據了主導地位。HMM模型能夠很好地描述語音信號短時平穩特性,將聲學、語言學、句法等知識集成到統一框架中。此后,HMM的研究和應用逐漸成為了主流。
         
        快速發展階段
        當時在美國卡耐基梅隆大學讀書的臺灣人李開復在HMM模型的此基礎上研發出了SPHINX系統,這是技術人員首次嘗試“非特定人連續語音識別系統”,其核心框架就是GMM-HMM框架,其中GMM是指(Gaussian mixture model,高斯混合模型)用來對語音的觀察概率進行建模,HMM則對語音的時序進行建模。
         
        同時期發展出的技術,還有20世紀80年代后期人工神經網絡(artificial neural network, ANN),采用ANN技術進行語音識別研究也成為了語音識別的一個方向【而當ANN后來進化為深度神經網絡(deep neural network,DNN),語音識別技術才有了本質的突破】。
         
        到了20世紀90年代,隨著計算機技術的快速發展,包括個人電腦在內的一大批設備開始嘗試使用語音識別技術。這一時期劍橋發布的HTK開源工具包大幅度降低了語音識別研究的門檻。然而在接下來的一段時間,GMM-HMM框架的技術局限性使得其應用效果差強人意。筆者清晰得記得,當時IBM推出的一款語音識別軟件,安裝包就有幾張光盤,在硬盤容量寸土寸金的個人電腦中,語音識別軟件的體積比很多當時的大型軟件還要大,除去存儲成本,更加麻煩的問題是安裝之后的訓練工作,僅僅識別一個人的語音就需要花上幾個小時來訓練,而且識別錯誤率還很高,最后不得不束之高閣。這可能是接下來在21世紀初的幾年中,語音識別很少被人提及的原因。
         

         
        語音交互技術實現突破
        2006 年 Hinton提出深度置信網絡(deep belief network,DBN),解決了深度神經網絡訓練過程中容易陷入局部最優的問題,為深度學習技術開啟新方向。2009 年,Hinton 和他的學生Mohamed D將 DBN 應用在語音識別聲學建模中,并且在TIMIT這樣的小詞匯量連續語音識別數據庫上獲得成功。
         
        2011 年 DNN 在大詞匯量連續語音識別上獲得成功語音識別效果取得了近10年來最大的突破,并從此成為主流的語音識別建模方式。
         
        3年以后的2014年11月,以DNN技術為基礎的亞馬遜憑借Echo一舉開創出了智能音箱這個全新的市場。
         
        在語音識別技術方向中,具有更強的長時建模能力的循環神經網絡(recurrent neural network,RNN),卷積神經網絡(convolutional neural network, CNN),以及在語音識別領域獨樹一幟的科大訊飛公司提出的DFCNN技術相繼出現,從而使得人機語音交互的體驗越來越好,以智能音箱為代表的語音交互設備開始受到越來越多消費者的歡迎。
         
        值得一提的是科大訊飛在語音識別技術方面的研究,其DFCNN框架的識別率相較以往的技術再次提升了15%以上,比傳統的GMM-HMM框架性能提升30%~60%,并與Google在語音識別方面展開深度合作。在中文語音識別方面,更是占據超7成市場,是中國相當多智能音箱中的首選語音識別技術。
         
        參考數據:《語音識別技術的研究進展與展望》科大訊飛股份有限公司人工智能研究院
        作者:王海坤, 潘嘉, 劉聰
         
        主站蜘蛛池模板: 激情小说亚洲图片| 亚洲av无码成人精品区一本二本| 一级毛片大全免费播放| 俄罗斯极品美女毛片免费播放| 亚洲国产AV无码一区二区三区| 免费的涩涩视频在线播放| 亚洲精品GV天堂无码男同| 国产免费一区二区三区VR| 一级女人18片毛片免费视频 | 亚洲成a人无码亚洲成www牛牛| 午夜视频在线在免费| 一级毛片免费观看| 无码久久精品国产亚洲Av影片| 午夜精品射精入后重之免费观看| 亚洲国产成人精品不卡青青草原| 亚洲视频免费在线播放| 国产91在线|亚洲| 国产精品国产午夜免费福利看| 日韩在线视频播放免费视频完整版| 免费毛片网站在线观看| 国产午夜鲁丝片AV无码免费| 免费一区二区三区在线视频| 久久久久久久久免费看无码| 小说区亚洲自拍另类| 亚洲色大成网站WWW久久九九| 四虎国产精品永久免费网址| 精品亚洲456在线播放| 日本免费xxxx色视频| 一本色道久久88—综合亚洲精品| 免费A级毛片无码久久版| 国产成人无码区免费内射一片色欲| 久久国产亚洲高清观看| 国产精品免费视频一区| 中文字幕免费在线看线人动作大片 | 亚洲精品中文字幕乱码三区| 6080午夜一级毛片免费看6080夜福利| 亚洲综合一区无码精品| 青青草原亚洲视频| 成人毛片18岁女人毛片免费看| 国产乱妇高清无乱码免费| 亚洲人成综合网站7777香蕉|