帮助 本站公告
您现在所在的位置:网站首页 > 知识中心 > 文献详情
文献详细Journal detailed

面向文档集抄袭的快速全文识别算法
Quick Full-text Identification Algorithm for Document Set Plagiarism

作  者: ;

机构地区: 温州大学物理与电子信息学院

出  处: 《计算机工程》 2010年第18期197-199,202,共4页

摘  要: 为实现局部文档集抄袭的识别,将基于回退数与前跳数的广义编辑距离的近似值定义为文档抄袭距离,分析该文档抄袭距离满足三角不等式成立和弱三角不等式成立时的充分条件,提出一种快速全文识别算法,能识别出文档集内涉嫌抄袭的所有文档有序对.实验结果表明,相比其他算法,该算法在兼顾识别召回率的同时效率提高了3倍~5倍. In order to identify plagiarisms for local document set, this paper defines the document plagiarism distance as an approximate generalized edit distance based on returning number and skipping number, then uses this distance. After analyzing the sufficient conditions of satisfying triangle inequality or weak triangle inequality for the distance, it proposes an efficient full-text identification algorithm which can find out all ordered plagiarizing document pairs faithfully. Experimental results show that the algorithm improves the identifying efficiency by 3 times to 5 times meanwhile it does not lower the recall ratio

关 键 词: 抄袭识别 文档集 三角不等式 电子文档管理

领  域: [自动化与计算机技术] [自动化与计算机技术]

相关作者

作者 杨艳萍
作者 康全礼
作者 黎沃源
作者 邓环
作者 陆伟民

相关机构对象

机构 广东技术师范学院
机构 五邑大学
机构 华南理工大学法学院
机构 中山大学资讯管理学院资讯管理系
机构 华南师范大学

相关领域作者

作者 李文姬
作者 邵慧君
作者 杜松华
作者 周国林
作者 邢弘昊