全文检索搜索引擎中文信息处理技术研究
唐培丽[1] 胡明[1] 解飞[2] 刘钢[1]
[1]长春工业大学计算机科学与工程学院,吉林长春130012 [2]武警吉林省总队通信处,吉林长春130062
摘 要:
本文深入分析了全文检索中文搜索引擎的关键技术,提出了一种适用于全文检索搜索引擎的中文分词方案,既提高了分词的准确性,又能识别文中的未登录词。针对向量空间信息检索模型,本文设计了一个综合考虑中文词在Web文本中的位置、长度以及频率等重要因素的词条权重计算函数,并且用量化的方法表示出其重要性,能够较准确地反映出词条在Web文档中的重要程度。最后对分词算法进行了测试,测试表明该方法能够提高分词准确度满足实用的要求。学科分类:
G354[文化、科学、教育、体育 > 科学、科学研究 > 情报学、情报工作 > 情报检索]


















cqvip.com