一种基于判别式重排序的拼写校正方法

张扬[1] 何丕廉[1] 向伟[2] 李沐[3]

[1]天津大学计算机科学与技术学院,天津300072 [2]香港科技大学计算机系,香港 [3]微软亚洲研究院,北京100080

摘  要:

提出一种基于判别模型的拼写校正方法坨针对已有拼写校正系统Aspell的输出进行重排序,使用判别模型Ranking SVM来改进其性能.将现今较为成熟的拼写校正技术(包括编辑距离、基于字母的n元语法、发音相似度和噪音信道模型)以特征的形式整合到该模型中来,显著地提高了基准系统Aspell的初始排序质量,同时性能也超过了一些商用系统(如Microsoft Word 2003)的拼写校正模块.此外,还提出了一种在搜索引擎查询日志链中自动抽取拼写校正训练对的方法、基于这种方法训练的模型获得了基于人工标注数据所得结果相近的性能,它们分别将基准系统的错误率降低了32.2%和32.6%.

相关文章:

主题相关 参考文献(31篇) 

参考文献

更多文章搜索 
中国业务群个人门户,免费下载!
相关学者+更多
征稿启事
相关文章+更多
社区热帖+更多
天元数据 维普资讯 版权所有 Copyright © 2001-2008 cqvip.com Inc. All rights reserved.
渝ICP证 B2-20050021  违法和不良信息举报中心
建议使用:1024x768分辨率,16位以上颜色