全文检索搜索引擎中文信息处理技术研究

唐培丽[1] 胡明[1] 解飞[2] 刘钢[1]

[1]长春工业大学计算机科学与工程学院,吉林长春130012 [2]武警吉林省总队通信处,吉林长春130062

摘  要:

本文深入分析了全文检索中文搜索引擎的关键技术,提出了一种适用于全文检索搜索引擎的中文分词方案,既提高了分词的准确性,又能识别文中的未登录词。针对向量空间信息检索模型,本文设计了一个综合考虑中文词在Web文本中的位置、长度以及频率等重要因素的词条权重计算函数,并且用量化的方法表示出其重要性,能够较准确地反映出词条在Web文档中的重要程度。最后对分词算法进行了测试,测试表明该方法能够提高分词准确度满足实用的要求。

相关文章:

主题相关 参考文献(12篇) 被引情况(1篇) 耦合文献(64篇) 

参考文献

更多文章搜索 
中国业务群个人门户,免费下载!
相关学者+更多
征稿启事
相关文章+更多
社区热帖+更多
天元数据 维普资讯 版权所有 Copyright © 2001-2008 cqvip.com Inc. All rights reserved.
渝ICP证 B2-20050021  违法和不良信息举报中心
建议使用:1024x768分辨率,16位以上颜色