关键词:
英语
第二语言
口音评估
多模态
层次结构
摘要:
英语作为世界上最广泛使用的语言。随着国际交流的日益加深,人们越来越重视培养自身的英语能力。以往在评价学习者第二语言能力时,常常依赖于教师或母语说话人的主观判断来进行评分,存在主观性强、低效等缺点,因此对英语第二语言学习者的口音水平进行自动评估最近也成为了计算机辅助发音训练系统的研究重点。当前口音评估任务存在三个难点,首先是系统难以给出与人类专家评分相关性高的结果,现有方法多是基于置信度评分特征或者手工提取特征进行建模,这类方法性能往往受输入特征限制;其次是难以有效融合多模态信息以提高评分性能;第三是忽略了不同粒度以及评分维度之间的关联性,现有方法主要使用特征直接建模每个维度的评分,忽视了粒度间的层次关系以及同一层级不同维度间的关联。针对以上问题,本文在公开的speechocean762数据集上提出以下两个解决方法。
首先为避免使用置信度评分或手工特征带来的错误传递效应,本文提出一个端到端口音评估方法,将梅尔谱特征和文本字符序列映射为语句层面的准确度、流畅度和韵律评分。该方法使用两个编码器模型分别获取语音和文本模态信息,然后利用注意力机制增强声学表示,最后通过打分模块输出预测评分。实验结果表明本文提出方法的性优于传统基于置信度评分特征的方法,在流畅度和韵律的评分相关性相比目前已有方法均有明显提升。
考虑到韵律特征是一种评价发音流畅、节奏明快的重要因素,本文提出了一种基于韵律信息增强的方法帮助模型从多模态信息中获取有效表示以提升模型评分性能。其次,语句具有层次结构和逻辑关系,不同粒度间的层次关系以及评分维度间的内在关联可以被利用,本文提出一种基于韵律增强的多模态层次注意力口音评估方法,该方法在韵律特征增强基础上借助自注意力层自动学习音素、单词和语句粒度下的内在关联和层次结构,此外通过在单词和语句粒度下使用本文提出的多方面注意力机制能够帮助模型从其它维度获取有效的信息。实验结果表明本文提出的方法相比端到端方法在语句级准确率维度的评分相关性进一步提升了1.1%,在流畅度和韵律方面分别提升了1.1%和1.2%,通过消融实验也验证了韵律增强和层次注意力评分结构的有效性。