首页 > 范文 > 优秀文章 > 多模态学习分析应用于公众演讲能力评估的系统性综述

多模态学习分析应用于公众演讲能力评估的系统性综述

来源：优秀文章发布时间：2023-01-22 点击：

张华阳，郑春萍，吴斌，宋威

(1.北京师范大学，北京 100875；
2.北京邮电大学，北京 100876)

公众演讲是全球高校普遍重视的一项沟通技能。高效的公众演讲能力是人才培养的重要目标，也是对外传播中展现国家软实力的有力保障。实现对学生演讲能力的精准评估，是开展个性化教学的前提，对提升人才培养质量意义深远。评估学生演讲能力十分复杂，涉及学习者的语言能力、交际策略与心理生理机制等多个维度。除针对学习者的口头或听觉模态信息开展话语分析外，还需基于空间或视觉模态的数据进行分析评价。在真实的教学场景中，演讲能力还会随教学过程的展开呈现动态变化。因此，公众演讲能力的评估既涉及文本、语音、图像等单模态数据的特征提取，又涉及跨模态数据的融合，是多模态学习分析领域亟待解决的挑战性难题。

多模态学习分析通过同步采集和整合处理复杂学习过程中的多模态数据，旨在全面准确地对学习特点与学习规律进行建模，为教与学提供支持[1]。该技术能协助克服教学评价中人工评价成本高、工作量大、评价反馈不及时、评价客观性受质疑等方面的局限。依托多模态学习分析技术，研究者可以结合真实的演讲教学场景，借助摄像机、麦克风、可穿戴设备等工具系统地记录学习者演讲学习的全过程；
随后，采用深度学习等方法提取视频、音频、文本、生理层面的特征，并通过融合计算实现对公众演讲能力的综合评估。多模态学习分析支持的公众演讲能力智能化评估将成为传统评估方式的有效补充[2]。

目前，融合多模态学习分析技术的公众演讲能力评估方法尚不成熟，有必要系统地梳理该技术应用于演讲教学场景的相关研究，为未来的教学实践与技术创新提供启示。本研究旨在从整体研究趋势、应用过程、多模态演讲教学数据库的建设、智能评估系统的研发等方面系统梳理最新研究成果，为公众演讲教学与实践提供启示。

针对公众演讲能力的评估主要包括两大类：一是基于演讲者外显的、可观察的行为与表现，主要采用成熟的评价量表或问卷工具进行评估；
二是通过获取研究对象心率、脉搏、皮肤电、脑电等生理指标数据进行测量[3]。评价方式包括人工评价以及机器辅助的智能评价等。现有针对学习者演讲能力的评估主要基于三个层面展开[4]，一是演讲者的语言表达能力，包括针对演讲主题的谋篇布局与演绎论证，语言的准确性、流利度和灵活性等；
二是演讲展现能力，包括面部表情、眼神交流、肢体动作等非语言类的演讲技巧；
三是演讲者的情感自我调控与社会性调控，包括演讲焦虑的识别检测与自我调控等。

(一)基于问卷工具或评价量表的人工评价

在真实教学场景中，教师或学习者的同伴通常采用现有的评价量表或问卷工具，对学习者的公众演讲能力开展评价。表1中总结了相关评估工具的名称、制订者及评估维度等信息。美国传播协会发布了演讲能力评估表，即Competent Speaker Speech Evaluation Form(简称CSSEF)[5]，主要从演讲内容、语言能力、肢体表现及辅助材料等多方面对演讲者的表现进行评价，采用三级量表方式计分。Thomson等编制了公众演讲能力量表，即Public Speaking Competency Instrument(简称PSCI)[6]，在CSSEF的基础上增加了对演讲内容导入、演讲结论及整体表现的考量，该量表共计20个题目，以五级量表方式计分，能较好地评估演讲者语言运用与信息沟通等能力。知名演讲教育专家Lucas教授结合演讲教学实践，针对课堂教学中学生的公众演讲能力提供了评分标准[7]，简化了评价维度。他建议从演讲的导入、正文、结论、展现和整体表现予以评价，确定了五级评价的量表。美国高校协会为评估本科教育中学生的口头交流能力，提出了本科教育有效学习评价标准(Valid Assessment of Learning in Undergraduate Education，简称VALUE)[8]，该标准从演讲内容组织、中心思想、语言风格、支撑材料等方面对演讲者的表现进行评价。Schreiber等提出了公众演讲能力标准(Public Speaking Competence Rubric，简称PSCR)[9]，该量表从核心能力标准和辅助能力标准两个方面进行评估，共计11个题项，采用五级量表计分。其中，核心能力标准涵盖对演讲主题、内容组织、口头表达能力等9个题项，而辅助能力标准则主要针对视觉辅助工具与演讲论证2个题项。

表1 常见的公众演讲能力评估工具及评价维度

针对演讲者焦虑情绪的评价，通常采用学者Paul开发的演讲者信心自评量表，即Personal Report of Confidence as a Speaker(简称PRCS)[10]。该量表共计30个题项，采用“是-否”方式回答，得分范围从0到30，得分越低，演讲自信程度越高。此外，McCroskey开发了公众演讲焦虑自我报告量表(The Personal Report of Public Speaking Anxiety，简称PSPSA)[11]，该量表包括34个题项，采用5级量表计分，根据得分加权判断演讲者的焦虑指数与焦虑程度。

以上评估标准充分考虑了演讲者多个维度的公众演讲能力，如演讲内容与辅助材料的质量、语言表达、展现能力和整体表现等，为人工评价提供了较为可靠、有效的支撑。但是，基于问卷工具或评价量表的公众演讲能力评估存在以下三个方面的局限。一是评估的客观性问题。不同评估主体对于评估标准的理解和运用会存在偏差，容易导致评估结果的主观性[12]。二是针对演讲者的情感表现，特别是演讲焦虑，主要采用自我陈述的方式进行评定，也缺乏客观性。三是人工评价成本较高、耗时费力[13]，在实际教学过程中，很难针对较大规模的学生群体提出及时有效的反馈与评价，无法实现常态化的人工评价和个性化的学习指导。

(二)基于多模态学习分析的智能评价

1.多模态学习分析支持的演讲者语言表达能力评估

针对演讲者语言表达能力的学习分析，常见的方式是基于文本内容、文本结构、措辞、语气、同义词等，采用隐含语义分析系统、深度神经网络及改进的算法进行自动评分[14]。早期针对演讲者语言表达能力的学习分析主要依托自然语言处理的相关算法。如，Huang所在团队从中国台湾教育研究院的公众演讲数据库中提取语音记录的特征，使用潜在的N-grams分布词表征和词性标签的加权计数，提出了基于词汇特征的评估模型[15]。Hsiao等将密集的单元级音视频特征提取方法同基于字袋和Fisher矢量编码的会话级行为模式表征技术相结合，提出了评价口头报告质量的多模态评估模型[16]。随着语音识别技术以及多模态深度学习算法的发展，研究者逐渐将基于演讲文本的分析转向基于语音数据的深度挖掘。Jiang采用自动语音识别技术(ASR)，以“讯飞听见”作为教学干预工具，从词汇复杂度和句法复杂度两个层面实现了对学生英语口语表达能力的评测[17]。Li等提出了一个基于对抗性学习的演讲者自动识别框架，对说话者进行声学表征，建立了鲁棒性较强的演讲者识别模型[18]。综上而言，针对演讲语言表达能力的多模态学习分析主要基于文本和音频两种数据源，结合自然语言处理、自动语音识别与深度学习等方法开展评估与建模。

2.多模态学习分析支持的演讲者演讲展现能力评估

针对演讲者展现能力的多模态学习分析，主要基于面部表情、眼神交流(注视)及肢体动作等非言语行为进行评价与建模。多模态数据的捕获工具包括普通摄像设备及多模态体感摄像设备(如Kinect、Heerlen等)。以Kinect为例，该设备包含深度传感器、彩色摄像头和完整的麦克风阵列等，能实现演讲者全身3D的运动捕捉、面部识别和语音识别功能。Munoz等结合Kinect传感器的数据，将10种不同类型的身体姿势可视化，将自定义的身体姿势与其他传感器的多模态数据相融合，提升评估模型的精度与可用性，为开展公众演讲和口头报告的师生提供有效的反馈[19]。Kinect还能与其他分析软件配合使用，研究者可以通过将可视化的身体姿态信息与其他信息相融合，提升评价模型的精度与可用性。Roque所在的研究团队尝试将Kinect采集的视频数据与人体骨骼跟踪软件相结合，实现对演讲者人体骨骼关节的动态跟踪(skeletal tracking)，采用聚类分析等方法构建了不同类别演讲者的特征模型[20]。

3.多模态学习分析支持的学习者演讲焦虑及调控能力评估

与实验室场景不同，实际课堂教学场景中演讲者的焦虑状态与情感自我调控的学习分析，主要基于量表、观察或“无干扰的(unobtrusive)”生理测量等方式。Chen等使用情绪评测工具包分析了演讲者面部表情的变化，主要采用总情绪(积极情绪与消极情绪)的均值以及积极情绪与消极情绪的比值展开评估。其中，积极情绪的值为喜悦这一类情绪的值，消极情绪的值为其他六类情绪(愤怒、蔑视、厌恶、恐惧、悲伤和惊讶)的均值。随后，基于标准差、峰度和偏态值等评测与计算演讲者的情绪特征[21]。随着可穿戴设备的普及和生理测量工具的应用，相关研究注重将多类型的行为数据与生理数据相融合，用于评价演讲学习者的情感状况与自我调控能力。Lee等将英语演讲者的非言语行为数据与皮肤电活动数据相融合，构建了用于评测演讲者演讲焦虑的编码框架与评估模型[22]。Mihoub等通过收集演讲者多种类型的语伴交际模态(coverbal modalities)数据，把动态贝叶斯网络设计与经典J48/多层感知器/支持向量机分类器进行比较，提出了针对演讲者社会性调控能力的评估模型[23]。

多模态学习分析技术的教育应用已有较完整和系统的综述性研究[24]，但在公众演讲这一领域的相关研究还有待梳理。本研究结合十年来的相关实证研究，主要围绕以下问题展开分析：(1)近十年相关实证研究的整体趋势是什么？(2)如何基于多模态学习分析技术进行公众演讲能力评估？(3)常见的多模态演讲教学数据集有哪些特征？(4)常见的公众演讲能力多模态评估系统有哪些特征？(5)多模态学习分析应用于公众演讲能力评估有什么优势与挑战？

(一)文献获取途径

多模态学习分析作为一种新型的学习分析技术，在教育实践与研究领域的应用方兴未艾。为精准地获取与本文相关实证研究成果，本研究采用系统性文献综述的方法获取样本[24，25]，最终结合Web of Science、Scopus、ProQuest、ERIC via EBSCO host、Elsevier ScienceDirect、PubMed、Sage Journal Online、IEEE Xplore Digital Library、ACM Digital Library、Springer Link、EI Village等权威数据检索平台获取文献。

(二)文献筛选过程

本研究严格按照系统性综述的相关流程与文献筛选标准[26](PRISMA)。如图1所示。首先，本研究以“Multimodal Learning Analytics”“MMLA”“multimodal”以及“Learning Analytics”为关键词，并结合“public speech”“public speaking”“oral presentation”关键词在上述的权威数据库进行检索。文献发表时间限定为2011年1月1日—2021年9月30日，最终获取相关文献3766篇。随后，借鉴已有的系统性文献综述筛选标准依据进行筛选[25，27]，筛选标准主要包括：论文长度大于3页的英文论文、论文可全文获取、论文经过严格的同行评审、采用实证研究的方法开展研究、研究主题围绕多模态学习分析在公众演讲能力评估的应用等。此轮筛选初步确定有效文献29篇。最后，基于以上29篇文献的参考文献进行二次检索，增补了相关的有效文献19篇，最终确定有效文献共计48篇。

(一)近十年整体的研究趋势

基于最终确定的48篇文献，结合所属学科领域、研究对象背景信息、演讲语言与形式等，总结出如下的研究趋势。

1.研究所属的学科领域

从载文的学术期刊与学术会议分布看，共涉及17种期刊与16个会议，其中会议论文28篇(58.3%)，期刊论文20篇(41.7%)。计算机科学与技术领域41篇(85.4%)，工程领域3篇(6.2%)，教育学领域2篇(4.2%)，心理学及语言学领域各1篇(2.1%)。载文量最高的会议为国际计算机协会(ACM)举办的多模态交互国际会议(ICMI)会议(7篇)。多模态学习分析应用于公众演讲能力评估的研究涉及多个学科领域，以计算机科学与技术领域为主阵地，教育学、语言学、心理学等领域也有相应探索。

2.研究对象的背景信息

研究者主要采取方便抽样的原则选择研究对象，包括大学生(文献数=17)、大学教师(文献数=5)等。有少量文献关注研究生、高中生等研究对象。此外，有5项实证研究基于已有的视频数据开展了多模态特征提取及学习分析，包括TED、YouTube或语料库中的演讲视频等。从研究对象的数量来看，最少为9人，最多为448人。其中，10—30人作为研究对象的有20项(41.7%)，31—60人的有10项(20.8%)，超过60人的仅6项(12.5%)。研究涉及样本规模有限，仍缺乏较大规模的多模态公众演讲教学数据集。

3.演讲语言、形式与类型

48项实证研究中，多数研究采用英语作为演讲语言(N=28，58.3%)，只有少量研究采用了法语(N=4，8.4%)、日语(N=2，4.2%)、西班牙语(N=1，2.1%)和汉语(N=1，2.1%)等作为演讲语言。演讲形式包括自选主题的已备演讲与即兴演讲。多模态学习分析已在不同语种的演讲者能力评估中得以应用，不少研究开始关注非本族语学习者采用外语开展演讲的能力评估。演讲类型主要分为信息型演讲(N=26，54.1%)，其次分别为劝说型演讲(N=10，20.8%)和介绍型演讲(N=6，12.5%)。只有一项研究涉及礼仪型演讲(毕业典礼致辞)(N=1，2.1%)。总体而言，现有研究并未探讨不同演讲类型对评估结果的影响，在真实教学中，学生将接触不同类型的演讲，现有演讲能力的评价维度与演讲类型无直接联系。针对不同类型、不同主题的公众演讲，是否需要采用更加个性化的评估方式与评价标准还需要通过实证研究进行更深入的探讨。

(二)基于多模态学习分析技术的公众演讲能力评估过程

多模态学习分析技术应用于公众演讲能力的评估过程包括数据采集、特征提取与融合计算、演讲能力评估等，如图2所示。以下分别就相关过程进行简要说明。

1.数据采集

在48项实证研究中，采集演讲者多模态数据的设备可分为外置设备与可穿戴设备。第一，外置设备主要包括摄像机与麦克风。摄像机细分为数码摄像机、网络摄像头与体感摄像机，主要采集视音频数据。体感摄像机还能提供身体跟踪数据、头部运动数据等传感器数据，能够用以评估演讲者的注意力、身体意识、反馈意识和说话行为意识等[27]。麦克风包括无线麦克风、便携麦克风及头戴式麦克风，协助音频数据采集。第二，可穿戴设备主要包括智能眼镜、头带、电极及脉冲夹，智能眼镜能够提供视频、音频、头部运动数据、眼动数据等，头带、电极及脉冲夹能够分别对应提供脑电信号(EEG)、皮肤电反应信号(GSR)及光容积描记信号(PPG)。

表2进一步总结了以上采集设备所生成的数据格式及其优势与不足。以外置设备为例，其优势主要在于经济性与无侵入性，不足在于这些设备采集的数据主要局限于音视频与文本格式，无法更加精准地掌握演讲者心理和生理层面的信息。与外置设备不同，可穿戴设备有助于更加全面地收集演讲者的生理数据，如脑电信号(EEG)、皮肤电反应信号(GSR)及光容积描记信号(PPG)等数据，有助于更精准地分析演讲者的表现，并有助于研究非生理数据与生理数据的关系，具有探索的意义与价值。但可穿戴设备有可能给演讲者增加额外的压力或负担，如智能眼镜的不透明性限制了演讲过程中的眼神接触，会直接影响演讲的效果[28]。为避免可穿戴设备对演讲者的干扰，研究者通常会建议演讲者以最舒适的姿态佩戴设备，或通过降低房间噪音或调整房间适宜的温度，以避免可穿戴设备对演讲者表现产生影响[29]。演讲者在感觉不适的情况下也可以随时停止演讲[3]。目前，仅有少量研究报告了可穿戴设备对演讲者可能造成的不适。哪些干扰因素可能影响演讲者的表现，还缺乏相关的实证研究。因此，对于不同类型的可穿戴设备介入演讲教学实验可能产生的影响还有待进一步研究。

表2 公众演讲多模态数据的采集设备、数据生成格式、优势与不足

在真实的演讲环境中，为减少对演讲者的干扰或出于对演讲者隐私的尊重，有望通过采用轻量级的数据采集工具实现精准的公众演讲能力评估[29]。针对实验室场景，在征得演讲者同意后，可以通过其佩戴的可穿戴设备所采集的生理信号，从生理学的视角探索演讲者能力与生理信号之间的关系[3]。

2.特征提取与融合计算

如图2所示，基于文本、视频、音频、生理信号等多模态数据，还需运用工具或算法提取并整合不同模态数据的特征。表3总结了公众演讲过程中对不同模态数据进行特征提取融合的算法工具与分析指标。

表3 公众演讲多模态数据特征提取融合的算法工具与分析指标

近年来，随着机器学习特别是深度学习的发展，演讲能力的多模态特征提取主要借助新型工具或算法以提升评估精度。第一，针对文本数据，以文本语言和幻灯片为主进行特征提取。除采用Word2Vec词向量生成模型提取词汇特征外，还可以使用GloVe(Global Vectors for Word Representation)算法[46]，以提取每一个词的表示向量。在最新的工作中，研究者采用了语义预训练模型(Bidirectional Encoder Representation from Transformers，简称BERT)提取特征，以获得更优的结果[32，47]。第二，音频数据的特征提取以语言学特征和声音特征为主。除使用已有研究中的OPENSMILE、PRRAT等工具之外，还可采用COVAREP(A Cooperative Voice Analysis Repository for Speech Technologies)算法库提取梅尔频率倒谱系数、音高等[48]。在音频特征提取领域，同样可以采用预训练模型，即以原始演讲音频作为输入，无需信号处理等相关操作就可进行提取特征。其中较为经典的是Wave2Vec以及Wave2Vec2[37，49]。第三，针对视频数据，主要基于身体运动、面部表情、头部运动及眼动等进行特征提取。此类数据的主要来源包括体感摄像机直接采集的数据，或基于OpenCV等开源函数库及Openface等人脸识别项目等。最新的研究还尝试使用GluonCV计算机视觉工具包[40]进行了特征提取。第四，针对演讲者的生理信号数据，主要通过可穿戴设备以获取脑电信号、皮肤电信号、光容积描记信号等。随后，结合数据提取时域特征和频域特征。其中，时域特征反映了信号与时间的关系，是真实世界中客观存在的域，而频域特征属于一种数学构造，通过研究生理数据的特征，有望从更深层次的人体机理提升公众演讲能力评估的精确度。

在多模态学习分析过程中，由于单一模态的表达能力有限，出现了一系列将多模态特征进行融合的方法。Zadeh等提出了最简单直观的方法，采用外积融合(Tensor Fusion Network，简称TFN)的操作方法进行多模态特征融合[43]。Liu等针对计算效率及“过拟合”问题提出了低秩矩阵融合(Low-Rank Multimodal Fusion，简称LMF)的方法。该方法利用矩阵低秩假设来加速计算并降低“过拟合”的风险，从而提高融合效果[44]。Hazarika等发现了多模态特征之间存在共有特征与各模态特有特征，基于该发现设计了共有特有分离融合(MISA)框架，通过构造损失函数将共有特征与特有特征进行了分离[45]。

3.演讲能力评估

公众演讲能力的多模态评估一般采用“数据采集-特征提取与融合计算-演讲能力评估”的技术路线。在48项实证研究中，有2项研究较为清晰地描绘了演讲能力多模态评估的流程，具有一定的典型性与代表性。本研究结合这2个案例进行简要评述。

第一个案例主要用于帮助提升演讲者的演讲能力与领导力[16]。该研究案例结合已有的演讲数据集，首先对演讲者的原始音视频进行特征提取，包括使用语音活动检测(Voice Activity Detection，简称VAD)技术分割音频，提取演讲话语中的低维度特征(Low-level Descriptors，简称LLD)。通过采集移动距离(Motion Boundary Histogram, 简称MBH)与路径信息(Trajectories，简称TRAJ)用于跟踪演讲者的移动轨迹。随后，使用词袋模型(Bag-of-Word，简称BoW)对音频数据进行编码，使用费舍尔向量(Fisher-vector)对视频数据进行编码。最终，通过添加二分类器，输出对演讲者演讲能力评估的最终得分。与传统的支持向量机方法相比，该评估模型可以提升9.8%的评估精度，与人类专家评估效果基本一致。从学习分析的角度来看，该模型采用多层级的特征提取，对采样样本点进行了持续跟踪。由于支持向量机算法对大规模数据的训练效果有限，若对预测模型进行调整，采用适合大规模数据的模型，将进一步提升评估的精确性。

第二个案例主要探索了如何结合演讲者语言和非语言行为，对多源异构、语义上相互联系的模态数据进行分析建模[50]。首先是提取音频特征中的梅尔频率倒谱系数(MFCC)、基频(F0)、语音质量、谐波差异、音频峰值斜率等五类特征。对于视频数据，通过基于广义自适应视图的外观模型(Generalized Adaptive View-based Appearance Model, 简称GAVAM)提取的头部移动特征；
使用欧姆龙的人体和面部图像传感技术(OKAO)提取的视线特征；
使用情绪识别框架(FACET)提取的脸部特征等。对于文本数据，采用词袋模型技术提取文本特征。随后，通过分类器实现结果输出，上半部分分类器使用贝叶斯分类器，下半部分分类器采用多视图典型相关分析(Multiview CCA，简称MVCCA)实现了聚类分析。该评估模型对于分析已有的演讲者多模态数据提供了模式借鉴，对于文本、视频、音频等数据分析提供了特征提取的方法。该评估模型的优势在于可通过无交互的单模态信息进行能力预测，还可为利用模态之间的交互进行能力评估。如果可以对该模型进行优化，如改进数据特征描述的方法、提升预测模型等，有望实现更复杂的数据特征提取和适应更大规模的数据集。

通过综合分析多模态学习分析技术应用公众演讲能力评估的全过程，本研究总结如下。第一，多模态学习分析技术有利于进一步提升演讲能力评估的精确度。在多模态数据采集的丰富度、数据特征提取的复杂度与评估预测模型的精确度三个方面仍有拓展提升的空间。可采用更加精准的工具和算法提升评估的准确度，如采用最新的深度学习算法以提升评估模型的精确度等。第二，在已有的研究中，较少清晰完整地呈现演讲能力评估的全流程，后续研究可具体详细、可视化地描述演讲能力的评估模型与评估流程，有助于后续研究者参照已有技术路线，更有效地针对演讲者开展多模态学习分析与评估。

(三)常见的公众演讲多模态教学数据集

如表4所示，在48项实证研究中，有5项研究明确地建设或采用了公众演讲的多模态数据集。包括416位大学生的课堂汇报多模态演讲数据集，128位中小学候选校长演讲数据集，9位高中生的英语演讲比赛数据集，51位本科生、研究生、研究人员的自由演讲多模态数据集，17位志愿者的英语即兴演讲与正式演讲数据集，128位候选校长的演讲数据。

表4 常见的公众演讲多模态数据集

公众演讲数据集的建设主要呈现出教育情境丰富性、被试身份多元性和采集工具种类多样性等三方面的优势。但目前的演讲数据集仍存在数据量相对较少以及数据集建设缺乏统一规范的问题。因此，本研究建议后续研究需要采集更多的演讲多模态数据样本，以促使机器学习、深度学习等方法能够实现更有效的数据训练。此外，后续研究还需明确演讲数据集采集规范说明，这将有利于数据整合与特征提取，也有助于对不同的数据集进行对比研究。

(四)常见的公众演讲能力多模态评估系统

在48项实证研究中，有6种具有代表性的基于多模态学习分析的公众演讲能力评估系统，包括Presentation Trainer、MACH(My Automated Conversation coacH)、Cicero、Automanner、Automated skills、ROC speak等，这些系统主要基于演讲者身体姿势、手势、音量、头部运动等开展多模态评估。各系统的研发团队、主要功能、采集工具、采集模态及分析指标等参见表5。

表5 公众演讲能力的多模态评估系统

Zhao等系统梳理了评价公众演讲评估系统的相关指标，主要包括演讲环境的真实性、是否包含不同身份的演讲者、是否经历过多轮次平台测试与应用、评估系统的鲁棒性强弱以及是否包括外部评估等5个方面。本研究基于Zhao等的评价指标，对上述主流的公众演讲多模态评估系统进行了分析总结(如表6所示)[53]。目前结合真实教学场景、鲁棒性较强的演讲能力评估系统还非常缺乏。其中，ROC speak系统的更新版是以上系统中具备较为全面评估能力的评估系统。因此，本研究建议后续研究需加强评估系统的鲁棒性，实现在真实演讲环境中的轻量级自动评估，在尊重演讲者隐私的基础上考虑演讲视频共享标记等关键问题。

(一)核心优势

目前，多模态学习分析支持公众演讲能力评估的应用仍处于发展阶段，综合相关实证研究，其优势主要包括四个方面。(1)评价数据的多源性与全面性。学习者的演讲过程存在大量多源异构的多模态数据。多模态学习分析技术可以有效地结合音频、文本、视频、生理等数据，实时分析演讲者的语言行为与非语言行为，对演讲者的语言运用、注意力、身体活动与情绪表现进行特征提取与综合评价[50]。(2)评价反馈的实时性与智能化。基于机器学习、深度学习等算法，多模态学习分析能实时呈现演讲者在认知、行为、情绪等方面的结果，及时高效并多视角地反馈学习者的演讲表现。例如，通过可视化图表实时呈现演讲者在行为表现和情绪变化方面的评估结果与学情分析，引导演讲者调整演讲策略，提升演讲能力[56]。(3)评估过程的轻量级优势。近年来，得益于计算机视觉技术的精进发展，多模态学习分析技术将能实现对视频数据的深度挖掘。例如，在传统图像识别、情感分析的基础上，能实现人体姿势、手势、头部方向和凝视等特征的跟踪与检测，助力演讲者卸下诸多可穿戴设备。因此，为真实教学场景中开展轻量级、少负担的实时评估提供了可能[29]。(4)评估结果的精准性。随着人工智能的发展应用，多模态学习分析领域有望基于演讲教学全过程采集数据，实现特征提取与数据融合，开展更客观、更精准、更具个性化的演讲能力评估[16]。例如，Arsalan等通过优化算法融合三类多模态数据总结了评估框架[42]，依托该框架，识别演讲者是否处于压力状态的准确率已达到96.25%。

(二)主要挑战

总结近十年多模态学习分析应用于公众演讲能力评估的相关实证研究，主要面临四个方面的挑战：第一，较大规模的多模态公众演讲教学数据集还非常缺乏。由于缺乏此类真实教学场景中的多模态数据集，多模态评估模型的预测能力有限，分析算法也有待进一步优化。第二，现有数据集在数据标注的专业化、标准化及透明度方面还有待提升。数据标记直接关系到评估模型的可解释性和评价结果的可追溯性。现有的多模态学习分析所支持的公众演讲能力评估系统多采用监督分类的方式进行数据标记。这种标记方式可以独立于演讲教学专家的领域知识，但对于学习者多方位的演讲能力却无法作出全面的标记评价。不少多模态数据集在数据标记方面并未给出标准化、系统化的解释，标记过程的透明度有待提升。第三，基于多模态学习分析的公众演讲能力评估方法尚不成熟。尽管多模态学习分析技术在演讲者特征提取和融合计算方面已经积累了较为丰富的前期成果，但结合真实教学场景、基于学习者多元演讲能力评估维度的研究还非常有限。建议进一步优化多模态学习分析的算法工具及分析模型，实现对学习者公众演讲能力更为全面的智能化评估[57]。第四，演讲者多模态数据的采集与应用过程中，还需特别重视伦理问题。在数据采集过程，智能设备的穿戴有可能使演讲者及观众产生不适[29]。在数据应用过程常采用众包的方法，还有可能侵犯演讲者的隐私[38]。

本研究采用系统性文献综述的方法，梳理总结了十年来多模态学习分析应用于演讲能力评估的相关研究。基于研究趋势、教育应用、优势与挑战，本研究建议如下。首先，需要进一步围绕多模态学习分析开展深入的教学实践与系统长期的实证研究。多模态学习分析应用于公众演讲能力评估的内在机理还有待进一步探索，特别是如何通过该学习分析技术促进有效的演讲教学，优化学生演讲过程中的情感体验[58]。其次，结合真实教学场景，注重多模态公众演讲教学数据集的建设。在建设数据集的过程中，注重制定数据采集、数据标记、数据分析的相应标准，实现多模态学习分析的可追溯性、可解释性以及可重复性。探索基于多模态学习分析的公众演讲能力评估方法，构建更为全面、优化的算法工具及分析模型。研发基于深度学习的智能化评估平台，将数据采集、特征提取与融合计算以及学习评估高效结合，以支撑公众演讲能力多模态数据学习分析的全过程。再次，将多模态学习分析与人工评估有机结合。目前，人工评估和基于多模态学习分析的评估均存在相应的局限，采取人机协同的思路[59-60]有助于发挥人类专家的智慧和经验，也能够拓展机器在数据采集和自动分析方面的优势。最后，重视各类相关主体的深度合作，共同开展技术攻关。注重一线教师、教学专家、技术专家与教育信息科技研究者的协同，助力实现更精准、更高效、更具个性化的公众演讲能力多模态学习分析，最终促进学生演讲能力的提升。

猜你喜欢演讲者特征提取模态联合仿真在某车型LGF/PP尾门模态仿真上的应用汽车实用技术(2022年10期)2022-06-09多模态超声监测DBD移植肾的临床应用昆明医科大学学报(2022年3期)2022-04-19跨模态通信理论及关键技术初探中国传媒大学学报(自然科学版)(2021年1期)2021-06-09空间目标的ISAR成像及轮廓特征提取北京航空航天大学学报(2019年9期)2019-10-26基于Gazebo仿真环境的ORB特征提取与比对的研究电子制作(2019年15期)2019-08-27基于特征提取的绘本阅读机器人设计方案电子制作(2019年15期)2019-08-27微动目标雷达特征提取、成像与识别研究进展雷达学报(2018年5期)2018-12-05会计时的话筒发明与创新·小学生(2016年4期)2016-08-04阅读自然的艺术读者(2014年2期)2014-12-26日版《午夜凶铃》多模态隐喻的认知研究电影新作(2014年1期)2014-02-27推荐访问:应用于综述演讲

上一篇：意到笔随
下一篇：教育改革背景下的高中信息技术实践课教学探究

推荐文章

推荐内容

优秀文章推荐文章

优秀文章热门文章