帮助 本站公告
您现在所在的位置:网站首页 > 知识中心 > 文献详情
文献详细Journal detailed

基于语义匹配的抄袭检测方法(英文)
A Plagiarism Detection Method Based on Semantic Matching

作  者: ; ; ;

机构地区: 华南理工大学信息网络工程研究中心

出  处: 《华南理工大学学报(自然科学版)》 2013年第7期131-136,共6页

摘  要: 现有的抄袭检测方法大多根据相似度来判定文档间是否存在抄袭.与常见的复制检测不同,在抄袭检测中,占文档很小比例且未加引用的复制文本也将被认定为抄袭.受文档尺寸、复制篇幅和干扰信息的影响,现有方法的检测效果均不理想.针对这种局限性,文中分析了文本语义与指纹排列顺序的关系,提出了语义匹配方法,将指纹向量投影到一个二进制向量,在降低维数的同时保留了指纹的位置信息.在PAN公用语料集上将该方法与Jaccard和Hamming距离法进行了对比测试,发现文中方法的召回率和准确度均更优. The existing plagiarism detection methods mostly use the similarity to determine whether there is pla- giarism between two documents. Unlike the case in common duplication detection, in plagiarism detection, a small segment of duplicate text without any references may be identified as plagiarism. However, due to the effects of document size, duplicate text length and interferences, the existing plagiarism detection methods are all of relatively poor performance. In order to solve this problem, the relationship between the text semantics and the fingerprint order is analyzed, and a semantic matching method, which projects the fingerprint vector into a binary sequence to reduce the dimension and remain the position information of the fingerprint, is pro- posed. Then, the method is compared with the Jaccard distance method and the Hamming distance method through the test on the PAN public corpus. The results show that the proposed method is of the highest recall and precision.

关 键 词: 语义匹配 抄袭检测 指纹 文本语义

领  域: [自动化与计算机技术] [自动化与计算机技术]

相关作者

作者 艾丹祥
作者 黄晓宇
作者 袁兆锋
作者 李育裕
作者 黎沃源

相关机构对象

机构 广东外语外贸大学
机构 华南师范大学
机构 华南师范大学外国语言文化学院
机构 华南理工大学
机构 中山大学

相关领域作者

作者 李文姬
作者 邵慧君
作者 杜松华
作者 周国林
作者 邢弘昊