一种增量式文本软聚类算法

冯中慧 鲍军鹏 沈钧毅

西安交通大学电子与信息工程学院,西安710049

摘  要:

针对传统文本聚类算法时间复杂度较高,而与距离无关的算法又不适用于动态、变化的文本集等问题,提出了一种基于语义序列的增量式文本软聚类算法.该算法考虑了长文本的多主题特性,并利用语义序列相似关系计算相似语义序列集合的覆盖度,同时将每次选择的具有最小熵重叠值的候选类作为一个结果聚类,这样在整个聚类的过程中大大减小了文本向量空间的维数,缩短了计算时间.由于所提算法的语义序列只与文本自身相关,所以它适用于增量式聚类.实验结果表明,算法的聚类精度高于同条件下的其他聚类算法,尤其适合于长文本集的软聚类. (共5页)

相关文章:

主题相关 参考文献(7篇) 

参考文献

更多文章搜索 
中国业务群个人门户,免费下载!
征稿启事
相关文章+更多
社区热帖+更多
天元数据 维普资讯 版权所有 Copyright © 2001-2008 cqvip.com Inc. All rights reserved.
渝ICP证 B2-20050021  违法和不良信息举报中心
建议使用:1024x768分辨率,16位以上颜色