您的位置:网站首页 > 《中文科技期刊数据库》 > 工程技术 > 自动化计算机 > 计算机应用 > 摘要

基于BERT的古文断句研究与应用

《中文信息学报》2019年 第11期 | 俞敬松 魏一 张永伟   北京大学软件与微电子学院 北京100871 中国社会科学院语言研究所 北京100732
导出参考文献 ★ 收藏 | 分享
  • 第1页
  • 第2页
  • 第3页
  • 第4页
论文服务:
摘 要:古汉语与现代汉语在句法、用词等方面存在巨大的差异。古文句与句之间通常缺少分隔和标点符号,现代读者难以理解。人工断句有助于缓解上述困境,但需要丰富的专业知识,耗时耗力。计算机自动断句有助于加速对古文的准确理解,从而促进古籍研究以及中华文化的弘扬。除自动断句,该文还尝试了自动标点任务。该方案自行预训练古汉语BERT(Bidirectional Encoder Representations from Transformers)模型,并针对具体任务进行微调适配。实验表明,该方案优于目前深度学习中的主流序列切割BiLSTM+CRF模型,在单一文本类别和复合文本类别测试集上的F1值分别达到89.97%和91.67%。更重要的是,模型表现出了很强的泛化能力,未参与任何训练的《道藏》测试集上的F1值依然可达到88.76%。自动标点任务仅使用少量较为粗糙的带标点文本训练集时F1值为70.40%,较BiLSTM+CRF模型提升12.15%。两任务结果均达到当前最佳,相关代码和模型已经开源发布。
【分 类】【工业技术】 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工)
【关键词】 自动断句 自动标点 BERT 微调
【出 处】 《中文信息学报》2019年 第11期 57-63页 共7页
【收 录】 中文科技期刊数据库

尊敬的读者:

维普网在疫情防控期间的免费开放活动将于2020年5月31日结束。您可以通过完成作者身份认证,在2021年1月1日前继续享有免费下载权限。感谢您的理解与支持。