基于词频统计的中文分词的研究

费洪晓 康松林 朱小娟 谢文彪

中南大学信息科学与工程学院,长沙410075

摘  要:

论文介绍了一个基于词频统计的中文分词系统的设计和实现。通过这个系统,可以将输入的连续汉字串进行分词处理,输出分割后的汉语词串,一般是二字词串,并得到一个词典。词典中不重复地存储了每次处理中得到的词语。以及这些词语出现的频率。这个系统选用了三种统计原理分别进行统计:互信息,N元统计模型和t-测试。文中还对这三种原理的处理结果进行了比较,以分析各种统计原理的统计特点,以及各自所适合的应用场合。 (共3页)

相关文章:

主题相关 参考文献(5篇) 被引情况(7篇) 耦合文献(32篇) 

参考文献

更多文章搜索 
中国业务群个人门户,免费下载!
征稿启事
相关文章+更多
社区热帖+更多
天元数据 维普资讯 版权所有 Copyright © 2001-2008 cqvip.com Inc. All rights reserved.
渝ICP证 B2-20050021  违法和不良信息举报中心
建议使用:1024x768分辨率,16位以上颜色