导 师: 余卫宇
授予学位: 硕士
作 者: ();
机构地区: 华南理工大学
摘 要: 视频行为识别技术是计算机视觉领域中一个具有挑战性的研究课题,旨在对视频中的行为进行分析并做出分类。这项技术在视频检索、智能医疗监控、人机交互和交通安防等方向上有着广泛的应用和需求。由于相机扰动、背景杂乱和视点变化等干扰因素的影响,准确地从视频中分析和识别人类的行为仍然是一个具有难度的研究课题。前期的研究成果中,视频行为识别方法一般是采用人工设计方法提取视频中的相关特征,再结合分类器对特征进行分类。在实际应用中,同一种行为在背景和运动细节上有明显的不同,因此很难提取通用且合适的特征。另一方面,传统方法只能对简单场景中的视频行为进行研究和分类,而不能识别复杂视频中的动作。近年来,深度神经网络在自然语言处理、视频分类、图像识别等领域上取得了重要的进展,越来越多专家开始研究基于深度神经网络的视频动作识别方法。基于深度神经网络模型的动作识别方法可以基于数据样本进行端到端的特征提取和分类,且能获得比传统动作识别方法更高的性能。本文主要围绕基于深度卷积神经网络的视频动作识别展开研究。首先,对于深度学习的相关理论基础以及常见人体动作识别方法进行详细介绍。其次,深入研究了Simonyan等人提出的双流视频动作识别模型,并设计了三组对比试验分别探讨了采用不同的学习率初始值、学习率调整策略和CNN网络模型对双流动作识别模型性能的影响。对该模型进行深入探究后,本文针对其不足之处,提出了一种结合多模态信息和二阶池化机制的视频动作识别方法,主要涉及以下四点改进:1、为模型引入了特征提取能力更强的网络,分别对空间网络和时间网络引入主流的深度残差网络模型。2、引入二阶池化机制,通过修改网络结构引入一种二阶池化结构,提取视频中的二阶信息。3、融入基于光流图提取的运动方向和强度信息模态,该模态能够提升整体网络模型的运动特征捕捉能力。4、权重融合,基于多模态卷积神经网络模型我们采取了加权融合的方式,该融合方式可以提升模型的表现性能。最后分别在UCF101和HMDB51数据集视频数据集上进行实验验证,结果显示本文提出的改进方案可以提升模型的识别性能,同时也获得与当前主流方法相当的效果。更多还原
关 键 词: 视频动作识别 深度学习 深度残差网络 多模态信息 二阶池化机制 权重融合
分 类 号: [TP391.41;TP183]