基于深度学习的在线课堂参与度评估：方法、模型与实验验证

摘要：随着在线教育的蓬勃发展，学习者监管和教学反馈的滞后成为影响教学质量的关键问题。本研究旨在构建一个全面且有效的三维课堂参与度信息融合框架，通过整合课后实时答题、头部姿态估计和表情识别技术，深入挖掘学习者在在线课堂中的参与度信息。经严谨实验，对比框架生成的参与度评分与NSSE - China问卷评分，有力证明了该框架的有效性，为提升在线教育质量和推动现代化信息教育发展提供了重要支撑。

关键词：在线教育；课堂参与度；深度学习；头部姿态估计；表情识别

一、引言

1.1 研究背景

在当今数字化时代，信息化技术的迅猛发展使得在线教育成为一种普及化的学习模式，打破了时间与空间的限制，让知识传播变得更加便捷高效。然而，在具体的在线教育实践过程中，诸多问题逐渐凸显。大部分在线学习平台普遍存在监管缺失以及教学反馈滞后的现象，这直接导致教学效果难以达到预期。据Jordan对慕课课程的统计分析，平均每堂课程的完成人数仅占课程参与人数的15%，少数课程的完成率最高仅达52.1%，这一数据充分表明学习者在在线课堂中的参与度极低。此外，已有研究发现课堂学习收获与课堂参与度之间存在显著的正相关关系，参与度低的学习者往往面临着重修、辍学等风险。因此，精准挖掘学习者的课堂参与度信息，成为解决在线教育环境中监管与反馈难题、提高课堂质量和增加学习者收获的关键所在。

1.2 研究目的

鉴于上述背景，本研究致力于运用深度学习方法，构建一个创新的信息融合框架，用于精确检测学习者在在线课堂中的参与度。通过一系列实验验证该框架的有效性，期望为在线教育的发展提供有力的技术支持和理论依据，从而改善在线教学的现状，促进教育质量的提升。

二、相关研究

2.1 课堂参与度的定义

课堂参与度是衡量学习者在课堂学习过程中投入程度的重要指标，它涵盖了学习者在生理和心理层面投入的资源总量。具体而言，通过学习者在学习过程中的认知投入、情感投入水平以及在课堂中的行为动作表现得以体现。认知投入包括学习者对知识的理解、思考和记忆等智力活动；情感投入涉及学习者对学习内容的兴趣、态度和热情等情感体验；行为动作表现则体现为学习者在课堂上的专注度、互动性以及是否遵守课堂纪律等外在行为。这三个维度相互关联、相互影响，共同构成了一个完整的课堂参与度概念体系。

2.2 传统课堂参与度检测方法的局限性

传统的课堂参与度检测方法主要包括教师评价法、自我报告法和观察法。教师评价法依赖教师的主观判断，可能因教师的个人偏见、观察不全面等因素导致评价结果不准确。自我报告法受学习者主观意识和记忆偏差的影响，学习者可能夸大或低估自己的参与度。观察法虽然相对客观，但耗时耗力，且在大规模在线教育环境中难以实施。这些方法在效率、客观性、空间适应性和学习者监管方面存在诸多不足，无法满足在线教育对实时、准确、全面监测学习者参与度的需求。

2.3 基于数据的课堂参与度检测技术现状

随着计算机视觉技术的不断进步，越来越多的研究者将其应用于课堂参与度检测。例如，Monkaresi等采用Kinect面部跟踪器和心率检测法，通过分析学习者的面部表情和心率变化来评估参与度；Zhang等利用学习者的面部图像和鼠标使用频率数据进行检测；詹泽慧结合人脸面部表情识别和眼球运动追踪技术构建注意力识别模型；李振华等采用鼠标与摄像头捕获课堂行为与表情数据进行参与度判断。然而，当前基于数据的课堂参与度检测技术仍面临诸多挑战。许多方法需要借助格外灵敏的设备，如高精度摄像头、心率监测仪等，这增加了技术实施的成本和难度。同时，繁杂的数据采集流程和复杂的数据清洗与预处理过程，使得这些模型在实际教学中的推广应用受到严重限制。

三、三维课堂参与度信息融合框架设计

3.1 框架构建

为克服现有基于数据的课堂参与度检测技术普适性低的问题，本研究从影响学习者课堂参与度的认知、行为、情感三个核心维度入手，创新性地提出了一个包含课后实时答题、头部姿态估计、表情识别的三维课堂参与度信息融合框架（如图1所示）。课后实时答题作为一种直接的知识检验方式，其评分结果能够准确反映学习者对授课内容的理解和掌握程度，即认知参与度。头部姿态估计则从学习者的行为动作角度出发，通过分析头部的位置和运动状态，判断学习者在课堂中的专注程度和参与积极性，从而反映行为参与度。表情识别技术专注于捕捉学习者面部表情的细微变化，这些表情蕴含着丰富的情感信息，如惊喜、疑惑、开心满足、不屑、瞌睡、厌恶等，进而能够有效反映学习者的情感参与度。最后，通过合理设置权重因子，将认知参与度、行为参与度和情感参与度进行加权计算，最终得出一个综合的、能够全面反映学习者课堂参与度的量化指标。

基于深度学习的在线课堂参与度评估：方法、模型与实验验证_深度学习

3.2 实施流程

3.2.1 数据采集

在数据采集环节，本框架充分利用摄像机设备的便捷性和高效性，获取学习者在课堂中的图像数据。考虑到实际教学环境中的硬件条件和框架运行的实效性与普适性，框架规定对每位学习者的每堂授课均采集50张图片。这些图片将作为后续分析学习者课堂参与度的重要数据来源，能够快速、直观地反映学习者在课堂不同时段的状态。

3.2.2 数据清洗与预处理

采集到的原始图像数据不可避免地包含各种噪声和干扰信息，因此需要进行严格的数据清洗与预处理工作。主要任务包括检测出图像中无人脸的图片，并针对有人脸的图片，根据不同维度的参与度检测模块需求，进行人脸对齐、裁剪、规格化等一系列操作。通过这些预处理步骤，能够提高数据的质量和可用性，为后续准确的参与度检测奠定坚实基础。

3.2.3 三维参与度检测与评分

经过清洗与预处理后的图片将被输送到各自对应的头部姿态估计、表情识别模型中进行深度分析。在头部姿态估计模型中，根据预先设定的评分细则，对图片中学习者的头部姿态进行分类检测，并计算相应的行为参与度评分。例如，当学习者头部处于正常状态（偏航角绝对值≤10，且俯仰角绝对值≤15）时，该图片的行为参与度评分为2分；若头部轻微偏转（10<偏航角绝对值≤25，且15<俯仰角绝对值≤30），则评分为1分；若头部严重偏转或处于其他异常状态，则评分为0分。同样，在表情识别模型中，依据图片预测分类的结果，按照不同表情状态对应的评分标准进行情感参与度评分。如预测为惊喜、疑惑等积极或思考性表情时，评分为2分；中立、开心满足等较为平静或积极的表情评分为1.5分；而不屑、瞌睡、厌恶等消极表情则评分为0.5分。

3.2.4 信息融合

在信息融合环节，框架不仅接收来自头部姿态估计和表情识别模型计算得到的每位学习者的行为参与度和情感参与度评分，还获取学习者在课程结束后针对本节授课内容的课后实时答题评分结果（即认知参与度评分）。然后，根据预先设定的权重因子α、β、γ（α、β、γ的权重之和为1），运用特定的加权计算方法（如公式(1)所示），将这三个维度的参与度评分量化为一个百分制的综合课堂参与度评分。在计算过程中，为了确保不同值域范围的参与度评分在融合时不受权重分布不均的影响，框架采用scale函数对每位学习者三个参与度的评分采取等比例缩放策略（如公式(2)所示），使三个参与度的值域分布大体趋于一致，从而保证信息融合的准确性和合理性。

3.3 三维参与度评分

为确保三维课堂参与度信息融合框架所采集的数据具备随机性与全面性，采集的50张图片应尽可能均匀地分布在课堂时间范围内。经过数据清洗与预处理后的每张有人脸的图片数据，将被分别输入经过训练的头部姿态估计和表情识别模型中进行分类检测，并依据评分细则进行评分。从检测到评分过程中三维参与度的评分细则如表1所示。其中，每张图片参与度评分的满分为2分，使50张图片评分的总和构成满分为100分的学习者行为参与度和情感参与度评分。

基于深度学习的在线课堂参与度评估：方法、模型与实验验证_数据集_02

基于深度学习的在线课堂参与度评估：方法、模型与实验验证_数据_03

四、基于深度学习的模型构建

4.1 基于Resnext50和多损失粗细粒度分类多分支组合的头部姿态估计

4.1.1 Resnet50与Resnext50对比分析

在深度学习领域，Resnet50是一种经典的神经网络结构，它由多个经典残差块堆叠而成，这种结构有效地缓解了深层网络梯度消失的问题，使得网络能够在较深的层次上进行有效的特征学习。然而，Resnext50在Resnet50的基础上进行了进一步的优化。Resnext50引入了“组卷积”的概念，在不增加网络参数量的前提下，从广度上对残差块进行了扩展。这一创新使得Resnext50在特征提取方面具有独特的优势，能够学习到更深层、更丰富的特征信息，从而为头部姿态估计提供更精准的特征表示。因此，经过综合考虑，本研究选用Resnext50作为头部姿态估计的主干网络。

4.1.2 多损失粗细粒度分类多分支组合

传统的单分支多损失分类模型在进行头部姿态估计时，通常采用将回归问题放大为细粒度的单桶分类的方法。然而，这种简单的处理方式容易导致额外的误差积累，因为它在放大分类问题的同时，也放大了误差的影响范围。为了克服这一问题，本研究采用了一种更为先进的多损失粗细粒度分类多分支组合模型。该模型通过采用经过不同大小分类区间组合训练的多分支网络结构，能够有效减少单桶分类带来的量化误差以及粗桶因分类收敛速度过快而产生的模糊误差。这种结构设计使得模型在处理回归问题时，能够更加精准地拟合数据，提高预测的准确性和稳定性。具体而言，本研究首先采用Resnext50主干网络，通过共享参数发挥协同效应，使整个网络能够学习到更本质的欧拉角高维特征，从而有效降低过拟合风险。在输出层，将其分为3个不同的欧拉角度，每个角度由6类不同粗细粒度的分支组合而成。每个分支上的全连接层代表3个欧拉角之一的不同分类粒度，并且每个分支都同时具有交叉熵损失和均方差损失。在模型训练过程中，整个网络共有3个信号（偏航、俯仰、滚转角的整体损失）被反向传播，以实现优化学习。基于Resnext50的多损失粗细粒度分类多分支组合的网络结构（如图2所示），通过这种创新的结构设计，为头部姿态估计提供了一种更为可靠和准确的解决方案。

基于深度学习的在线课堂参与度评估：方法、模型与实验验证_表情识别_04

4.2 基于比邻卷积神经网络的表情识别

比邻卷积神经网络是一种专门为处理图像分类任务而设计的深度学习模型，其核心特点在于采用了多视觉感受野来接收输入数据。这种独特的设计使得网络在处理图像时，能够从不同的尺度和角度捕捉图像的特征信息。各层网络之间通过比邻层连接，这种连接方式使得后续层可以直接获取浅层图像的特征信息，从而有效地整合了多层次的特征信息，为表情分类提供了丰富的依据。在本研究中，我们选择FER2013数据集作为训练与测试数据，该数据集包含了丰富的面部表情图像，共计28709张训练图片、3589张验证图片和3589张测试图片，涵盖了7类基本表情，为模型的训练提供了充足的数据支持。我们以PyTorch作为开源框架，利用其强大的计算能力和丰富的工具库进行模型的构建、训练与测试。比邻卷积神经网络结构（如图3所示）由13层网络组成，在FER2013数据集上的识别效果可比肩经典的Resnet18、VGG19等深层网络。通过大量的实验验证，当模型采取最大/平均池化加权融合的策略进行特征降维时，能够取得最优的性能。在FER2013中PublicTest和PrivateTest数据集上的准确率分别达到了70.80%、72.89%。此外，我们还对该策略进行了扩展研究，将其应用于不同模型时发现，在浅层网络模型中此策略能有效提高分类识别精度，而在深层网络模型中的分类识别效果相对不明显。基于比邻卷积神经网络的表情识别模型，为在线课堂中学习者的表情识别提供了一种高效、准确的方法，能够有效地捕捉学习者在课堂中的情感状态变化。

基于深度学习的在线课堂参与度评估：方法、模型与实验验证_深度学习_05

五、分类检测模型的测试与预训练

5.1 AFLW2000数据集上的头部姿态估计

在头部姿态估计模型的训练与测试过程中，为了确保模型具有较强的实际泛化能力，我们充分考虑了人类头部运动的正常范围（通常不超过±99°）。因此，我们使用了经过精心处理的300W_LP数据集作为训练数据，该数据集去除了头部运动范围超过±99°的图片，从而使训练数据更具代表性和针对性。在测试阶段，我们选用AFLW2000数据集作为测试样本，以全面评估模型在不同数据分布下的性能表现。在模型训练过程中，我们选择Adam优化器，并将训练的学习率设置为10 - 6，回归系数α设置为2。经过25轮的艰苦训练，我们成功得到了预测值与真实值绝对误差最小的训练模型。通过在AFLW2000数据集上进行的测试，我们得到了不同方法对3个欧拉角（偏航角、俯仰角、滚转角）预测的平均绝对误差（如表2所示）。实验结果表明，对人脸进行过密的裁剪会导致重要特征数据的缺失，从而影响模型的预测准确度。相反，适当增大训练数据的人脸边界框能够有效地提高欧拉角的预测准确度，这为我们后续优化模型提供了重要的参考依据。

基于深度学习的在线课堂参与度评估：方法、模型与实验验证_表情识别_06

5.2 AFLW2000数据集上的消融分析

为了深入研究基于Resnext50的多损失粗细粒度分类多分支组合模型中各个组成部分对模型性能的影响，我们在AFLW2000数据集上进行了全面的消融分析。主要探讨了在增大边界框条件下（k = 0.3 to 0.5），不同主干网络（Resnet50和Resnext50）、不同分支数量及权重系数对模型性能的影响。通过多次对比实验（结果如表3所示），我们发现采用最大分支数量6能够获得最大的预测精度。并且，当主干网络选择Resnext50时，6类分支维度尺寸分别为198、66、22、19、6、2，其对应的分类权重系数为β1、β2、β3、β4、β5、β6，且当回归系数α为2时，在AFLW2000数据集上观测到的最佳系数组合为9、7、5、3、1、1。这些实验结果为我们进一步优化模型结构和参数设置提供了宝贵的经验和指导，使我们能够更加精准地构建高性能的头部姿态估计模型。

5.3 FER2013和CEDB数据集上的表情识别

考虑到在线课堂情景具有较高的隐私性，在缺乏大型开源课堂表情数据集支持的情况下，搭建深度学习网络容易因数据限制而出现过拟合问题。同时，深度网络在实际应用中还受到终端设备计算与内存资源的限制。因此，我们团队自主创建了一个专门用于教育环境中的自定义教育数据集（Custom Education Data Base，CEDB）。该数据集包含了6123张被规格化为48×48的图片，涵盖了教育环境中学习者常表达的不屑、厌恶、疑惑、开心满足、瞌睡、惊喜、中立等7类表情状态。CEDB数据集的数据来源广泛，一部分来自国内外各个图片网站或短视频社交软件，另一部分来自各大开源表情数据集，并且采集的对象涵盖了不同地区、不同种族，多数人还带有配饰（如眼镜），这使得该数据集更加贴近真实在线教育场景中的表情分布，为表情识别模型提供了更加真实、可靠的数据基础。在表情识别模型的训练与测试过程中，我们采用比邻卷积神经网络进行特征提取。对于模型测试，我们选择了存在噪声数据且部分标签不正确的FER2013数据集，这有助于评估模型在复杂数据环境下的鲁棒性。而在模型预训练阶段，我们使用CEDB数据集，充分发挥其真实场景数据的优势。在FER2013数据集上，比邻卷积神经网络采用随机梯度下降（Stochastic Gradient Descent，SGD）优化器进行反向优化，以0.01的学习率训练80轮后，每隔5轮进行学习率的衰减，经过250轮的精心训练，最终得到最优模型（训练测试过程如图4所示）。在CEDB数据集上，我们首先将数据集划分为5133张训练集、640张验证集和350张测试集，然后使用SGD优化器进行训练。经过250轮的训练，模型在验证集上的精度达到87.03%、在测试集上的精度达到90.57%（训练测试过程如图5所示）。通过在这两个数据集上的训练与测试，我们验证了比邻卷积神经网络在表情识别任务中的有效性和可靠性，为在线课堂中的情感状态监测提供了有力的技术支持。

基于深度学习的在线课堂参与度评估：方法、模型与实验验证_表情识别_07

六、实验及其结果分析

6.1 实验过程

本研究选取了参与甘肃省X大学模拟在线环境学习课程“数据结构”的50名本科生作为实验研究对象，其中男生24人，女生26人，年龄均处于18 - 23岁之间。为确保实验环境的一致性和数据的有效性，这50名学习者被要求在独自一人的环境下通过计算机进行在线自主学习。在课程学习过程中，通过摄像机采集学习者的图像数据，每堂课采集50次数据，采集完成后经过数据清洗与预处理环节，去除无效数据，提高数据质量。头部姿态估计和表情识别模型根据采集到的数据，按照设定的评分细则进行检测与评分工作。课后，学习者需实时完成满分为100分的、针对课程内容的课后答题，其评分结果作为认知参与度评分。同时，学习者还需填写NSSE - China调查问卷，该问卷作为一种全面评估学习者课堂投入水平的工具，其结果将作为衡量学习者实际参与度的重要标准之一。

6.2 α、β、γ值的确定

NSSE - China问卷是美国国家学生参与度调查（National Survey of Student Engagement, NSSE）的汉化版，其涵盖了多个维度的指标，能够较为全面地反映学习者在课堂中的学习投入程度，包括学习动力、学习策略、师生互动、同学合作等方面。因此，本研究选取NSSE - China问卷作为学习者课堂参与度评定的重要指标。在课程结束后，通过框架计算得到50名学习者认知、行为和情感参与度（A）及其等比例放缩（B）的结果（如图7所示）。同时，将问卷选项及其填写结果量化为满分为100分的问卷评分，从而得到NSSE - China问卷评分与不同策略的课堂参与度（如图8所示）。在此基础上，为了确定认知参与度、行为参与度、情感参与度的权重因子α、β、γ的最优取值，本研究将不同权重融合策略下框架对每位学习者给出的课堂参与度评分与问卷评分进行对比，并计算两者之间的绝对误差之和。通过多次实验和数据分析（实验数据如表4所示），发现当α、β、γ取值为0.3、0.3、0.4时，绝对误差之和相对较小，能够在一定程度上平衡三个维度的参与度对最终课堂参与度评分的影响，从而较为准确地反映学习者的实际参与度。

基于深度学习的在线课堂参与度评估：方法、模型与实验验证_深度学习_08

6.3 实验结果分析与讨论

在数据处理过程中，为避免值域差异对信息融合产生的影响，信息融合环节在进行信息加权融合前采用了scale函数对接收的数据进行等比例缩放。通过对图7中数据A、B间的值域范围、标准差σ的对比分析，可以清晰地看到，等比例缩放操作在有效地调整值域分布的同时，大致保留了原始数据的分布规律。这一操作确保了不同维度参与度数据在融合过程中的公平性和有效性，使得最终计算得到的课堂参与度评分能够更加准确地反映学习者的实际参与情况。

为了验证三维课堂参与度信息融合框架的有效性，本研究邀请50名学习者在24小时内参与5次随机实验。在实验过程中，唯一的变量控制在统一指定的、针对课程内容的参与度前提上。前三次实验要求学习者根据授课内容自然地进行自主学习，模拟日常在线学习的真实状态；第四次实验要求学习者高度参与课堂学习，积极互动、认真思考；最后一次实验则要求学习者在课程学习中的参与度低于前面4次实验，适当降低学习投入。其中，仅第一次实验要求学习者填写NSSE - China调查问卷（第一次实验结果的详细数据如图7、图8、表4所示），后续实验则依据此次调查问卷的评分结果进行对比分析。

如前文所述，三维课堂参与度信息融合框架的信息融合权重因子被设置为3:3:4。在每次实验结束后，本研究将框架对每位学习者给出的课堂参与度评分与其问卷评分间的绝对误差进行求和计算，得到5次实验后课堂参与度评分与NSSE - China问卷评分两者间的绝对误差之和（如表5所示）。

通过对实验结果的深入分析，可以发现参与度前提与5次实验后两者间绝对误差之和的数据分布存在强烈的负相关性。具体而言，当实验要求学习者高度参与课堂学习时（如第四次实验），框架给出的课堂参与度评分与问卷评分之间的绝对误差之和明显降低，这表明框架能够敏锐地捕捉到学习者在高参与度状态下的积极变化，两者的数据分布更加趋于一致。相反，当要求学习者降低参与度时（如第五次实验），绝对误差之和显著增大，说明框架能够有效区分不同参与度水平下学习者的状态差异。这一结果充分证明了该框架能够有效地检测出学习者的学习投入水平，为在线教育中精准评估学习者参与度提供了有力的依据。

然而，需要指出的是，本次实验的数据样本量相对较小，全部来源于50名学习者。在更为复杂的实际在线教育环境中，学习者的个体差异、学习场景的多样性以及各种不可预见的因素都可能对框架的性能产生影响。因此，该框架在实际在线环境中的泛化能力有待后续进一步的实践与检验。未来的研究可以扩大样本量，涵盖不同年龄、专业、教育背景的学习者，同时增加实验的多样性和复杂性，以更全面地评估框架的有效性和可靠性。

七、研究总结

7.1 研究成果

本研究成功提出了一个创新的包含课后实时答题、头部姿态估计和表情识别技术的三维课堂参与度信息融合框架。通过严谨的实验设计和数据分析，证明了该框架在评估在线课堂学习者参与度方面具有显著的有效性。它能够综合考虑学习者在认知、行为和情感三个维度的表现，为教师提供全面、准确的学习者参与度信息。教师可以根据这些信息及时发现学习者在课堂学习过程中存在的问题，如认知困难、注意力不集中或情感消极等，并采取相应的教学策略进行干预和引导。对于学习者而言，该框架能够帮助他们更加清晰地了解自己的学习状态，及时调整学习策略和课堂行为，提高学习效率和质量。这一研究成果为在线教育领域提供了一种新的、有效的课堂参与度评估方法，有助于推动在线教育向更加智能化、精准化的方向发展。

7.2 研究不足与展望

尽管本研究取得了一定的成果，但仍存在一些不足之处。在头部姿态估计模型方面，由于开源数据集的局限性，缺乏大角度俯仰角的数据样本，导致模型在对俯仰角的预测上不够精准。这可能会影响对学习者行为参与度评估的准确性，特别是在学习者头部姿态变化较大的情况下。在表情识别模型方面，虽然创建了自定义的CEDB数据集，但相对于真实在线教育场景中复杂多样的表情变化，现有的数据仍然有限。这使得表情识别网络在实际使用过程中，对一些复杂情感状态的判断能力有待进一步加强。例如，在区分细微情感差异或处理多种情感混合的表情时，可能会出现误判或不准确的情况。

针对这些问题，未来的研究工作可以从以下几个方面展开。首先，在数据收集方面，应努力获取更多包含大角度头部姿态和丰富表情变化的真实在线教育数据，以扩充训练数据集，提高模型对各种情况的适应性。其次，在模型优化方面，探索新的算法和结构，进一步提高头部姿态估计和表情识别模型的准确性和鲁棒性。例如，研究如何更好地融合多模态信息，提高模型对复杂场景的理解能力。最后，考虑到在线教育的发展趋势，未来的工作重心应放在如何在不损失识别精度的前提下，大幅缩减模型的空间占用，构建更加紧密、高效的网络结构。这将有助于使三维课堂参与度信息融合框架能够更好地在移动式或嵌入式设备上运行，满足学习者随时随地进行在线学习的需求，为在线教育的广泛应用提供更加坚实的技术支持。

秒客网