您的位置:网站首页 > 《中文科技期刊数据库》 > 工程技术 > 自动化计算机 > 计算机软件 > 摘要

一种用于抄袭识别的文档距离度量

《计算机工程与应用》2010年 第7期 | 胡明晓 DING Leon X   温州大学计算机科学与工程学院 浙江温州325035 IBM多伦多实验室 多伦多 ON L6G 1C7 加拿大
★ 收藏 | 分享
  • 第1页
  • 第2页
  • 第3页
  • 第4页
论文服务:
摘 要:广义编辑距离的计算是一个NP-完全问题,在充分考虑了文档抄袭行为的特点之后提出一种基于广义编辑距离的单向的低计算复杂性的文档距离度量方法。首先,计算第一文档的各段落在第二文档全文中的近似串匹配距离之和,同时确定各段落在第二文档中的近似匹配子串(即原象串),然后根据这些原象串得到回退数和前跳数,最后将三者求和作为文档距离。该文档距离是一种广义编辑距离的近似值,能够在O(n^2)时间内计算,并能充分反映抄袭方向。针对人工文档和实际文档的两组实验表明该距离具有较低的漏检率、误检率。
【分 类】【工业技术】 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程
【关键词】 文档距离 广义编辑距离 近似串匹配 抄袭识别 电子文档管理
【出 处】 《计算机工程与应用》2010年 第7期 148-152页 共6页
【收 录】 中文科技期刊数据库