您的位置:网站首页 > 《中文科技期刊数据库》 > 工程技术 > 自动化计算机 > 计算机应用 > 摘要

关于中文文档复制检测算法的改进

《计算机工程与科学》2010年 第8期 | 孙伟 邢长征   辽宁工程技术大学 辽宁葫芦岛125105
在线阅读 ★ 收藏 | 分享
  • 第1页
  • 第2页
  • 第3页
论文服务:
摘 要:文本复制检测是这样一种行为:它判断一个文档的内容是否抄袭、剽窃或者复制于另外一个或者多个文档。文档复制检测领域的算法有很多,基于句子相似度的检测算法结合了基于字符串比较的方法和基于词频统计的方法的优点,在抓住了文档的全局特征的同时又能兼顾文档的结构信息,是一种很好的算法。本文在该算法的基础上对相似度算法进行了改进,提出了一种新的面向中文文档的基于句子相似度的文档复制检测算法。本算法充分考虑了中文文档的特点,选择句子作为文档的特征单元,并解决了需要人工设定阂值的问题,提高了检测精度。实验证明,无论是在效率上,还是在准确性上,该算法都是可行的。
【分 类】【工业技术】 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工)
【关键词】 中文文档 复制检测 中文分词 句子相似度
【出 处】 《计算机工程与科学》2010年 第8期 101-103页 共3页
【收 录】 中文科技期刊数据库