噪声语音识别:谷歌团队提出全新在线序列到序列模型

2018-07-24 23:52:04  阅读 127 次 评论 0 条

  近日谷歌团队发布了一篇关于在线语音识别的序列到序列模型论文,雷锋网(公众号:雷锋网)了解到,该模型可以实现在线实时的语音识别功能,并且对来自不同扬声器的声音具有识别能力。

  生成式模型一直是语音识别的主要方法。然而,这些模型的成功依赖于使用的精密的组合和复杂方法。最近,关于深入学习方面的最新研究已经产生了一种可以替代生成式模型的识别模型,称为“序列到序列模型”。这种模型的准确性几乎可以与最先进的生成模型相匹配。该模型在机器翻译,语音识别,图像标题生成等方面取得了相当大的经验成果。由于这些模型可以在同一个步骤中端对端地进行培训,因此该模型是非常易于训练的,但它们在实践中却具有限制,即只能用于离线识别。这是因为该模型要求在一段话开始时就输入序列的整体以供使用,然而这对实时语音识别等任务来说是没有任何意义的。

  为了解决这个问题,谷歌团队最近引入了在线序列模型。这种在线序列模型具有将产生的输出作为输入的 特性,同时还可以保留序列到序列模型的因果性质。这些模型具有在任何时间t产生的输出将会影响随后计算结果的特征。其中,有一种模型将使用二进制随机变量来选择产生输出的时间步长。该团队将这个模型称为神经自回归传感器(NAT)。这个模型将使用策略梯度方法来训练随机变量。

  图. 2:熵正则化对排放位置的影响。 每行显示为输入示例的发射预测,每个符号表示3个输入时间步长。 x表示模型选择在时间步长发出输出,而“ - ”则表示相反的情况。 顶线 - 没有熵惩罚,模型在输入的开始或结束时发出符号,并且无法获得有意义的梯度来学习模型。 中线 使用熵正规化,该模型及时避免了聚类排放预测,并学习有意义地扩散排放和学习模型。 底线 - 使用KL发散规则排放概率,同时也可以缓解聚类问题,尽管不如熵正则化那样有效。

  通过使用估计目标序列相对于参数模型的对数概率的梯度来训练该模型。 虽然这个模型并不是完全可以微分的,因为它使用的是不可微分的二进制随机单元,但是可以通过使用策略梯度法来估计关于模型参数的梯度。更详细地说,通过使用监督学习来训练网络进行正确的输出预测,并使用加强学习以训练网络来决定何时发出各种输出。

  图3b和3c分别示出了混合比例分别为0.25和0.5的两种情况的训练曲线的实例。 在这两种情况下,都可以看出,该模型学习了过适合数据。

  谷歌团队还研究使用该模型进行噪声输入,其中以不同混合比例将两个扬声器的单声道混合语音作为模型的输入。

  使用这个模型对两种不同的语音语料库进行了实验。 第一组实验是对TIMIT进行了初步实验,以评估可能导致模型稳定行为的超参数。 第二组实验是在不同混合比例下从两个不同的扬声器(一个男性和一个女性)混合的语音进行的。 这些实验被称为Multi-TIMIT。

  每日头条、业界资讯、热点资讯、八卦爆料,全天跟踪微博播报。各种爆料、内幕、花边、资讯一网打尽。百万互联网粉丝互动参与,TechWeb官方微博期待您的关注。

本文地址:https://www.kudz.cc/post/22189.html
版权声明:本文为原创文章,版权归 酷读者 所有,欢迎分享本文,转载请保留出处!

发表评论


表情

还没有留言,还不快点抢沙发?