您的位置:网站首页 > 《中文科技期刊数据库》 > 工程技术 > 自动化计算机 > 计算机应用 > 摘要

面向社会媒体的开放领域新词发现

《中文信息学报》2017年 第3期 | 张华平 商建云   北京理工大学计算机学院 北京100081 北京市海量语言信息处理与云计算应用工程研究中心 北京100081 北京理工大学软件学院 北京100081
  • 第1页
  • 第2页
  • 第3页
  • 第4页
论文服务:
摘 要:随着互联网的发展,社会媒体已经逐渐发展成为信息交流的重要载体。该文针对社会媒体文本的领域分布广、口语化程度高等特征,提出一种面向社会媒体的开放领域新词发现算法。此算法所有步骤均为线性时间复杂度,并且在分析过程中有效降低了内存的使用,从而能够实时处理社会媒体所产生的大规模数据。在6.6GB社会媒体文本语料中的新词发现准确率达到了87.2%,在普通计算机上新词发现速度可达2.6 MB/s。与传统算法相比,该算法在社会媒体领域的大规模语料中速度及精度上均有较好的效果。
【分 类】【工业技术】 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工)
【关键词】 社会媒体 新词发现 条件随机场
【出 处】 《中文信息学报》2017年 第3期 55-61页 共7页
【收 录】 中文科技期刊数据库