关键词:
口语表现测评
大学英语口语
评分模式比较
多模态
非语言展现
摘要:
随着计算机技术的进步,半直接口试得到了长足发展,并成为能够代替直接口试的可靠考试形式之一。尤其是在当前新冠疫情的背景下,其优势更为显著。然而,在多模态框架下,目前主流的口语测评仍以音频为中介,在视觉信息缺失的条件下能否完整呈现考生口语表现,这一问题值得探究。在口语评估中,除言语信息这一传统关注的因素外,说话人在视觉上呈现的行为,即非言语信息,也可能对评估者对口语表现的最终判断产生影响。尽管部分实证研究已经证明测评模式会影响评分结果,但其研究结论却存在明显分歧,导致结果差异的原因也有待进一步探索。基于此研究现状,本研究旨在从评分员的角度出发,比较音频和视频评分模式的差异,并尝试将非语言信息纳入研究视野,探索非言语因素在口语测评中的作用与影响,并探讨其与评估者认知之间的关系。本研究采用定量和定性分析相结合的方法,招募60名中国本科大学生作为受试,并让5名专业评分员遵照托福机考的口语评分标准,对其口语表现分别以音频和视频模式进行两轮评分,评分项目包括言语表达、语言使用和话题展开三个分项分,以及一个整体分。除分数结果这一定量数据外,评分员还需观察视频模式中受试的言语和非言语特征,在评分表中记录下相关评语,并在评估结束后接受评分回顾访谈。本研究的第一部分旨在验证视频和音频评分结果的差异,并使用三种心理测量方法对结果进行分析。第一种方法是经典测试理论,研究结果表明,视频模式下的整体评分高于音频模式;在分数可靠性方面,视频模式具有更高的评分员相关性。第二项方法基于多侧面Rasch模型,再次证明两组评分结果存在显著差异;在三个分项分数中,语言使用和话题展开在0.01显著水平下未发现两种评分模式间有显著差异,而言语表达则在0.05显著水平下存在差异,且接近两组数据整体分的分数差。第三部分分析采用概化理论,结果表明,在视频模式下,其分数变异值占比更高,即更能显示受试的真实表现;此外,要达到同一信度水平,视频模式下所需的评分员数量少于音频模式。研究的第二部分从评分员的角度进一步探讨多模态口语测评的运作机制。首先,对受试非言语信息相关的评语进行了分类,共包含四类视觉信息:面部表情、眼神、手势和其他身体动作。其次,与言语信息相关的评语显示,言语表达这一维度收到了最多负面评论,且手势和眼神等非言语线索使得评分员观察到更多受试语言不流利和表达困难的现象。在语言使用方面,受试发音的视觉呈现有助于提高评分员对其话语的理解程度,但视觉信息也降低了评分员对语言准确性和复杂性的关注。此外,语言使用被评分员视为最不重要的言语维度,而话题展开的重要性却高居首位。虽然此维度在表面上似乎与非言语线索不存在直接联系,但面部表情、眼神交流和手势等非言语表现都处于不断的变化之中,与话题展开有着类似的节奏。由于评分员能直观地观察到非言语表现,在某种程度上,非言语的“表演”效果可能是评分员对受试整体表现进行评分的基础。最后,评分员口头报告的结果显示,多模态为评分员创造了一种参与感,且各种非言语线索能更直观地反映受试的口语能力,因此可能会使得评分员间的评分结果更加“统一”。此外,以视频为媒介的口语测评可能扩展了口语测试的构念,评分员关注受试的“多模态交际能力”,并会考虑到受试对言语和非言语资源的使用策略,因而在评分实践中可能会导致分数的变化。因此,在设计测试之前,相关人员就要先基于测评目标对测试构念进行确认和调整,对于后续分数结果的阐释也需更为谨慎。总之,本研究将非言语表现纳入口语测评的范畴,在语言测试的框架下拓展了多模态理论。研究结果说明,在评分实践中,以视频作为媒介的口语测试具有更高的可靠性,同时评分员成本更低,与音频媒介相比更具优势,揭示了口语测评未来可能的发展方向。