视频人脸表情识别在无人驾驶、智慧医疗等多领域都有广泛应用。针对视频单帧特征提取存在信息损失的问题,提出单帧增强卷积网络,该网络采用浅层特征与深层特征融合实现特征增强,其中浅层特征为CNN中间层外延卷积模块实现浅层特征提取,深层特征为CNN网络最后一层融合空洞卷积和基于通道间注意力机制,实现特征通道重定位和强弱信息结合。又由于视频相邻帧存在相关性,提出多帧增强卷积网络,其采用帧间注意力机制,根据视频帧之间的相关性给视频帧打分从而得到视频的关键帧,继而实现多帧特征增强。最后对设计的模型在AFEW数据集、CK+数据集、SFEW数据集、FER数据集上进行验证,其中AFEW数据集上对视频表情识别的准确率从40.00%提升到45.19%,F1分数从0.31提升到0.393 7。该网络模型不仅能应用于静态图像,而且能应用于动态视频,同时也能提高表情识别准确率,降低误差,从而提升识别效率。
0 引言
表情一直是人类情绪的直观体现,人们通过表情对事物作出回应。随着计算机技术的不断发展,表情识别作为人工智能领域重要的一环备受关注。表情识别主要分为机器学习和深度学习两种方法,而在机器学习中,特征提取是最重要的一步,该过程主要是对最终表情识别起作用的特征进行提取压缩,从而进行识别。传统的特征提取方法主要