导 师: 操晓春
授予学位: 博士
作 者: ;
机构地区: 天津大学
摘 要: 随着互联网技术的发展和移动互联网的兴起,大量的多媒体信息特别是图像被上传到互联网上并且数目仍在不断的增加,这些信息将人们带入了图片大数据时代。为了挖掘海量图像数据中的有效信息及其中所蕴含的经济和社会价值,涉及到与图像相关的诸多技术,图像理解是其中较重要的一环。传统的用于图像理解的方法主要是基于词袋模型,即首先提取图像的底层特征表示,然后构建一个编码词典,最后将图像底层特征依据编码词典进行映射得到图像的直方图特征表示。虽然该方法广泛应用于图像理解的相关方向如图像中的物体识别和图像检索,并取得了一定的效果,但是基于词袋模型的表示方法会将图像中蕴含的结构信息丢失,导致图像特征表示的辨别性和鲁棒性存在一定的局限性。<br> 区别于基于词袋模型的图像特征表示方法,本论文提出了一种新的构建图像特征表示的方法,该方法将与图像相关的结构信息融合到图像的特征表示中,以此来提高图像特征表示的辨别性和鲁棒性。本论文提出了三种不同形式的结构信息的嵌入视觉特征表示方法,并将其分别应用于图像理解领域中的图像检索,图像分类和图像语义标注中。<br> 第一种方法是在基于轮廓图像的图像检索和分类的应用中,不同于传统的方法直接提取轮廓图像的特征点并构建特征描述符,在本论文中,提出了将轮廓图像所描述的物体的本身所具有的结构对称性嵌入到图像的视觉特征表示中,从而构建出包含物体对称结构的图像视觉特征表示。该特征表示能够有效的提高特征描述符的辨别性和鲁棒性。在实验中,将该嵌入对称结构的视觉特征表示应用于轮廓图像的分类和检索上,实验结果表明该方法能够有效的提高轮廓图像的检索和分类的准确度证明了结构信息嵌入特征表示中的有效性。<br> 第二种方法是在基于视觉属性的图像检索的应用中,不同于传统的方法仅考虑视觉属性查询词与其他相关视觉属性之间的共存性,在本论文提出的方法中,首先将视觉属性结构之间的互斥和共存性嵌入到视觉属性的特征表达之中。然后利用该嵌入结构信息的图像特征表示,提出了一种基于特征重建的图像检索框架,该框架能够有效的保留图像的结构特征从而能够有效的提高图像检索的稳定性和鲁棒性。实验结果证明该方法能够有效的降低查询关键词的歧义性,提高图像检索的准确度。<br> 第三种方法是在基于弱监督的图像标注的应用中,由于图像中包含有多个物体,因此传统的基于词袋的特征表示方法具有歧义性,进而无法表示图像中不同物体之间的结构关系,最后使得图像标注结果的不准确。本论文提出一种将语义标签的结构相关性信息嵌入到图像特征表示之中的方法,从而克服原始特征表示存在的歧义性。实验结果表明该嵌入语义标签的结构性特征表示能够有效的提高图像特征表示的辨别性和泛化能力,进行能够推动图像标注的查全性和准确率的提升。<br> 本论文为了验证视觉特征的结构性在图像理解中的作用,考虑到不同的应用场景下图像特征中嵌入不同层次的结构性信息:底层信息中的物体本身的对称结构,中层特征信息中的视觉属性的相关性结构以及高层物体标签信息之间的语义结构。通过不同的实验结果证明本文所提出的嵌入结构性信息的视觉特征表示能够有效的提高特征表示的辨别性和鲁棒性,同时实验结果也表明了嵌入结构性信息的视觉特征的有效性以及能够对计算机视觉中图像理解方向的发展具有一定的推动作用。
关 键 词: 图像处理 嵌入结构性信息 视觉特征 辨别性 鲁棒性
分 类 号: [TP391.41]
领 域: [自动化与计算机技术] [自动化与计算机技术]