您的位置:网站首页 > 《中文科技期刊数据库》 > 工程技术 > 自动化计算机 > 计算机应用 > 摘要

基于汉字固有属性的中文字向量方法研究

《中文信息学报》2017年 第3期 | 胡浩 李平 陈凯琪   西南石油大学计算机科学学院智能与网络化系统研究中心 四川成都610500
  • 第1页
  • 第2页
  • 第3页
  • 第4页
论文服务:
摘 要:中文短文本在如今高速发展的互联网应用中变得日趋重要,如何从海量短文本消息中挖掘出有价值的信息,已成为当前中文自然语言处理中非常重要且具有挑战性的课题。然而,采用传统的长文本处理方法进行分析往往得不到很好的效果,其根本原因在于中文短文本消息的语法及其语义的稀疏性。基于此,该文提出一种基于汉字笔画属性的中文字向量表示方法,并结合深度学习对短文本消息进行相似性计算。该方法结合中文汉字的构词和拼音属性,将中文汉字映射为一个仅32维的空间向量,最后使用卷积神经网络进行语义提取并进行相似性计算。实验结果表明,与现有的短文本相似性计算方法相比,该方法在算法性能及准确率上均有较大的提高。
【分 类】【工业技术】 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工)
【关键词】 短文本 中文字向量 深度学习
【出 处】 《中文信息学报》2017年 第3期 32-40页 共9页
【收 录】 中文科技期刊数据库