您的位置:网站首页 > 《中文科技期刊数据库》 > 工程技术 > 自动化计算机 > 自动化理论 > 摘要

W-POS语言模型及其选择与匹配算法

《计算机应用》2015年 第8期 | 邱云飞 刘世兴 魏海超 邵良杉   辽宁工程技术大学软件学院 辽宁葫芦岛125105 辽宁工程技术大学系统工程研究所 辽宁葫芦岛125105
★ 收藏 | 分享
  • 第1页
  • 第2页
  • 第3页
  • 第4页
论文服务:
摘 要:n-grams语言模型旨在利用多个词的组合形式生成文本特征,以此训练分类器对文本进行分类。然而n-grams自身存在冗余词,并且在与训练集匹配量化的过程中会产生大量稀疏数据,严重影响分类准确率,限制了其使用范围。对此,基于n-grams语言模型,提出一种改进的n-grams语言模型——W-POS。将分词后文本中出现概率较小的词和冗余词用词性代替,得到由词和词性的不规则排列组成的W-POS语言模型,并提出该语言模型的选择规则、选择算法以及与测试集的匹配算法。在复旦大学中文语料库和英文语料库20Newsgroups中的实验结果表明,W-POS语言模型既继承了n-grams语言模型减少特征数量、携带部分语义和提高精度的优点,又克服了n-grams语言模型产生大量稀疏数据、含有冗余词的缺陷,并验证了选择和匹配算法的有效性。
【分 类】【工业技术】 > 自动化技术、计算机技术 > 自动化基础理论 > 人工智能理论【工业技术】 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 一般性问题 > 理论、方法 > 算法理论
【关键词】 n-grams语言模型 词性 冗余度 稀疏数据 特征选择
【出 处】 《计算机应用》2015年 第8期 2210-2214页 共6页
【收 录】 中文科技期刊数据库

尊敬的读者:

在全国人民勠力同心抗击新型冠状病毒感染的肺炎疫情之际,为了给广大人民群众的教育、工作和生活提供便利,维普网(www.cqvip.com)在疫情防控期间免费向读者开放学术论文的下载权限。