导 师: 金连文
授予学位: 硕士
作 者: ;
机构地区: 华南理工大学
摘 要: 近年来,随着虚拟现实技术(Virtual Reality,VR)和增强现实技术(Augmenting Reality,AR)的兴起,第一视角(Egocentric Vision)手势交互技术受到学术界和工业界的广泛关注。手势交互是将手势信息转化为用户指令的一种交互方式,主要是利用计算机视觉和计算机图形学等技术对人的肢体语言进行识别。通过手势进行交流是人的本能。在学会语言和文字之前,人与人之间就是用肢体语言来交流。正因为手势在日常生活中最为频繁且便于识别,手势交互是继鼠标、键盘和触屏之后新的人机交互方式,尤其是智能眼镜等头戴式设备的出现,急需新的算法来帮助设备理解人的交互需要。手势交互技术,尤其是第一视角的手势交互,有着广泛的应用场景,使得本文的研究有着重要的意义。基于上述观点,本文提出了基于深度卷积神经网络的第一视角手势交互算法研究和应用设计这一课题,主要的工作和贡献包括:1.调研计算机视觉方面的最新进展,调研深度学习在目标检测和物体分类方面的研究,调研手势交互方面包括手部检测和指尖检测等方面的前人研究,然后在调研的基础上,对手部检测等课题作进一步研究。2.在调研后确定利用卷积神经网络作为算法基础,根据第一视角手势交互这一课题的特性,建立两个数据集EgoFinger和EgoGesture,分别为第一视角的单指手势数据集,和第一视角多类别手势数据集。本文对这两个数据集进行了颜色分布,空间分布等评估,考虑两个数据集的合理性以及对手势交互领域研究的作用。3.在建立的两个第一视角数据集上,本文研究了手部检测,指尖检测和手势识别三个任务,皆是在卷积神经网络进行特征提取的基础上进行。手部检测器和手势分类器是基于SSD(Single Shot Multi-box Detector)框架来搭建,而指尖检测器则是基于CNN(Convolutional Neural Network)坐标回归来搭建。4.�