一种快速文本归类算法的设计与实现
高影繁[1] 马润波[2] 刘玉树[1]
[1]北京理工大学计算机科学技术学院,北京100081 [2]山西大学物理电子工程学院,山西太原030006
摘 要:
为实现无维数约减技术而使分类算法可行且不浪费空间存储的超稀疏文档向量,同时保证分类精度和速度且两者相互独立的目标,提出使用类别特征信息数据库、类别特征权重向量模型、待归类文档压缩向量表示法和改进的Roechio分类算法等技术实现文档的高速归类.在相同的Reuters测试语料集上,与CRF算法和改进的kNN算法进行对比实验.结果表明,在基本不牺牲精度的情况下,归类算法的分类速度明显高于对比算法. (共4页)学科分类:
TP391[工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工)]

















cqvip.com