帮助 本站公告
您现在所在的位置:网站首页 > 知识中心 > 文献详情
文献详细Journal detailed

基于深度语义学习的跨模态事件检索

导  师: 刘文印; 谭清华

授予学位: 硕士

作  者: ();

机构地区: 广东工业大学

摘  要: 近年来,由于互联网上诸如文档、图片、音频、视频等多模态数据的规模的急剧增长,跨模态检索这一课题吸引了越来越多的研究人员的注意。通常,不同模态的数据用于描述共同的事件或者主题。跨模态检索定义为:输入一种模态的数据作为查询,查询得到相关的另一种模态的数据。举例来说,用户输入一段新闻报道作为查询的输入,检索得到相关的图片或者视频。跨模态检索的应用范围十分宽广,包括:热点探测,个性化的推荐,搜索引擎等等。随着多模态数据的规模的不断增长,用户对感兴趣的信息进行高效的搜索开始变得困难。针对这一问题,研究人员提出了许多不同的解决方法。然而目前,大多数跨模态检索的技术,例如基于关键字的搜索,基于内容的搜索,在进行相似度搜索时的技术仅仅停留在单模态的层面。由于输入和得到的检索结果可以是不同的模态。其中的难点和挑战在于,如何度量不同模态的数据的内容相关度。本文的主要贡献为:1.本文将多媒体领域的跨模态检索以及社交媒体领域的事件检测两个课题相结合,提出了跨模态事件检索的课题。针对该课题,提出了一种学习深度语义空间的用于跨模态事件检索的方法。通过深度学习模型,提取图像和文本的语义特征,从而将异构的数据转换为同构的语义空间,在语义空间里,可以很方便地实现跨模态的检索。具体来说,对于图像数据,利用迁移学习的方法,采用经过ImageNet预训练的VGG网络,将来自ImageNet的先验知识迁移到目标数据集中。同时,通过最小化相同模态的源域数据以及目标域数据之间的最大均值差异,解决域矛盾的问题,使得迁移模型能够更好地匹配目标域中的图像数据的分布。对于文本数据,利用自然语言处理中提取文本特征的方法,将文本特征向量化之后,通过LSTM的非线性变换,转换为语义空间表示。最后,通过最小化正则化的语义损失,学习一个交互的深度语义空间模型,将异构的图像文本数据转换成同构的深度语义空间。在深度语义空间里,相关的图像文本对之间的余弦相似度得到了极大化,不相关的图像文本对之间的余弦相似度得到了极小化,可以直接用欧式距离,余弦距离等方法衡量向量之间的相似度。2.针对跨模态事件检索这一课题,本文收集了一个名为“Wiki-Flickr event dataset”的数据集。现有的跨模态检索数据集中,图像与文档是一一对应的。而在我们收集的数据集中,图像文本对是弱对齐的,不存在一一对应的关系。并且在该数据集的基础上,搭建了一个跨模态事件检索的系统。3.在公开的Pascal Sentences数据集和本文的Wiki-Flickr event数据集上进行的一系列实验表明,本文提出的基于深度语义空间的检索方法的性能,相比于传统的跨模态检索方法,有了很大的提升。相比于部分基于深度神经网络的方法,检索性能有了一定的提高。更多还原

关 键 词: 跨模态检索 事件检测 深度学习 [1203649]语义空间

分 类 号: [TP391.41;TP18]

领  域: [] []

相关作者

作者 孙晓斯
作者 陈先梅
作者 谢久书
作者 袁辉初
作者 李韧之

相关机构对象

机构 华南师范大学
机构 暨南大学新闻与传播学院
机构 香港中文大学
机构 中山大学
机构 华南师范大学政治与行政学院

相关领域作者