做好嘈杂环境的语音识别,难点是如何将杂音与人声分离。传统的音频识别需要人工设计模块,并依靠Hidden Markov Models,常常需要大量的人力和经验来调整模型噪音和语音变异。未来的主要研究方向是,通过深度学习来替代Hidden Markov Models,如基于递归神经网络的深度神经网络(DNN)进行声学建模,使得语音识别系统变得更为简单。日立公司宣称自己已经研发出一项新技术,利用对话音量比杂音变化较少的特点,将杂音与话音进行分离。