• 首页
  • 产品推荐
    个人精选服务
    科研辅助服务
    教育大数据服务
    行业精选服务
    学科系列服务
    维普论文检测系统
    卓越性能 高效迅捷 灵活安全 精准全面
    大家·维普期刊OA出版平台
    OA开启知识传播,出版引领学术未来
    学者服务
    打造学术名片,分享学术成果,传播学术价值
    科技查新
    严谨查证 专业分析 助力科研创新
    智能选题
    调研综述
    研学创作
    科研对话
    砚承·科研辅导与咨询服务平台
    1V1投稿咨询 1V1科研辅导 单项科研辅导服务
    产品服务
  • 主题知识脉络
    机构知识脉络
    人物知识脉络
    知识脉络
  • 期刊大全
  • 充值
  • 会员
  • 职称材料
文献检索
任意字段

文献信息

  • 任意字段
  • 主题词
  • 篇关摘
  • 篇名
  • 关键词
  • 摘要
  • 作者
  • 第一作者
  • 作者单位
  • 刊名
  • 中图分类号
  • 学科分类号
  • DOI
  • 基金
智能检索 智能检索
高级检索 检索历史
展开查看相关推荐期刊
全部 95
中文 93
外文 2
期刊论文 12
  • 硕士65
  • 博士9
学位论文 74
  • 国内1
会议 1
专利 6
标准 0
报纸 0

二次检索

任意字段
    在结果中检索
    在结果中去除

    暂无数据

    共 93 条结果 ,以下是1 - 20条
      1 / 5 
    • 10条/页
    • 20条/页
    • 50条/页

    无数据

    已选:0 清除
    批量下载
    批量引用
    相关度 时效性 被引量
    1
    1. 认领
    【期刊论文】 •

    发文量: 被引量:0

    黄承慧 1,2

    发文量: 被引量:0

    印鉴 1

    发文量: 被引量:0

    侯昉 2
    • 《计算机学报》 CSCD 北大核心 • 2011年第5期 856 - 864, 共9页
    机构: [1] 中山大学信息科学与技术学院[2] 广东金融学院计算机科学与技术系

    摘要: 传统的文本相似度量方法大多采用TF-IDF方法把文本建模为词频向量,利用余弦相似度量等方法计算文本之间的相似度.这些方法忽略了文本中词项的语义信息.改进的基于语义的文本相似度量方法在传统词频向量中扩充了语义相似的词项,进一步增加了文本表示向量的维度,但不能很好地反映两篇文本之间的相似程度.文中在TF-IDF模型基础上分析文本中重要词汇的语义信息,提出了一种新的文本相似度量方法.该方法首先应用自然语言处理技术对文本进行预处理,然后利用TF-IDF方法寻找文本中具有较高TF-IDF值的重要词项.借助外部词典分析词项之间的语义相似度,结合该文提出的词项相似度加权树以及文本语义相似度定义计算两篇文本之间的相似度.最后利用文本相似度在基准文本数据集合上进行聚类实验.实验结果表明文中提出的方法在基于F-度量值标准上优于TF-IDF以及另一种基于词项语义相似性的方法. 摘要译文
    关键词: 文本聚类 ;词项语义相似度 ;文本相似度 ;自然语言处理
    智能阅读
    PDF下载
    引用
    被引量 690
    2
    2. 认领
    【期刊论文】 •

    发文量: 被引量:0

    黄睿智

    发文量: 被引量:0

    黄德才
    • 《小型微型计算机系统》 北大核心 CSCD • 2019年第2期 300 - 304, 共5页
    机构: [1] 浙江工业大学计算机科学与技术学院

    摘要: 传统的无监督关键词抽取算法往往无法反应词汇语义信息,而通过词频等方式来衡量一个词的重要性使其在面对短文本时准确率较低.为能兼顾词间语义关系、词位置关系及词频,结合word2vec提出了一种词间的文本局部相似度公式,并通过词间关系建立了不确定图模型,在提出顶点密度概念及候选关键词评价指标DEN的基础上,提出了基于不确定图的候选关键词抽取算法,并结合IDF提出了关键词评价的优化标准DEN-IDF.这种关键词抽取的新方法不依赖于外部人工标注数据,能够实现全程无监督.通过大量文本实验仿真发现,DEN-IDF的准确率比TF-IDF提高了8%左右,比TextRank提高了12%左右. 摘要译文
    关键词: 关键词抽取 ;不确定图 ;文本局部相似度 ;顶点密度 ;DEN-IDF
    智能阅读
    PDF下载
    引用
    被引量 9
    3
    3. 认领
    【期刊论文】 •

    发文量: 被引量:0

    杨山 1,2,3

    发文量: 被引量:0

    杨雅婷 1,2,3

    发文量: 被引量:0

    温正阳 4

    发文量: 被引量:0

    米成刚 1,3
    • 《厦门大学学报(自然科学版)》 北大核心 CSCD • 2019年第2期 237 - 242, 共6页
    机构: [1] 中国科学院新疆理化技术研究所[2] 中国科学院大学计算机科学与技术学院[3] 新疆民族语音语言信息处理实验室 +1个机构

    摘要: 目前的抽取式单文档摘要方法未考虑原文中句子和原文语义信息相关度,针对该问题,提出一种基于语义空间的抽取式单文档摘要方法.首先,利用Word2Vec训练词向量以获取语义空间,并基于该语义空间表示句子和原文;然后,基于余弦相似度计算句子与原文相似度值,并使用TextRank和词频-逆文本频率指数(TF-IDF)模型计算原文中句子的权重;最后,将相似度值与权重相结合得到句子的最终权重值.实验结果表明,该模型摘要质量优于基于深度学习的基线系统. 摘要译文
    关键词: 文本摘要 ;Word2Vec ;TextRank ;词频逆文本频率指数 ;句子-原文相似度 ;序列到序列
    智能阅读
    免费下载
    引用
    被引量 10
    4
    4. 认领
    【期刊论文】 •

    发文量: 被引量:0

    王秀红 1

    发文量: 被引量:0

    周曼 1

    发文量: 被引量:0

    金玉成 2
    • 《情报理论与实践》 北大核心 CSSCI • 2017年第4期 123 - 127, 共5页
    机构: [1] 江苏大学科技信息研究所[2] 江苏大学科学技术与产业处

    摘要: [目的/意义]专利文献包含着丰富的创新知识信息,是一种重要的知识载体。世界各国专利文献均有统一的内容编排体例,具有专利文献自身的用词特点。[方法/过程]通过构建领域专利知识库,用于计算专利文本词项的专利语义权重,具体过程为:假设两待比对的专利文本为和,首先通过词包法将其表示成实词向量;然后通过构建的领域专利知识库赋以各词项专利语义权重,进一步表示成带有专利语义信息的向量;再结合TF-IDF规则,最后将专利文本表示成带有专利语义权重信息以及词频权重信息的文本向量和。[结果/结论]研究为构建领域专利知识库提供一般方法,可应用于专利文本向量表示过程中专利词项语义信息的表达;并结合词项在专利文献中的位置信息赋以词项位置权重,从而为提高后续的专利文本相似度的计算的精确率和召回率提供基础保障。 摘要译文
    关键词: 专利文献 ;专利文本向量 ;语义表示 ;领域专利知识库
    智能阅读
    PDF下载
    引用
    被引量 5
    5
    5. 认领
    【期刊论文】 •

    发文量: 被引量:0

    顾淳

    发文量: 被引量:0

    俞成海

    发文量: 被引量:0

    于洋

    发文量: 被引量:0

    关炜炜
    • 《浙江理工大学学报(自然科学版)》 • 2022年第3期 424 - 432, 共9页
    机构: [1] 浙江理工大学信息学院

    摘要: 针对现有方法存在的忽略语义信息及重复提取语义相近关键词等问题,提出了一种基于Bidirectional encoder representation from transformers(BERT)模型的无监督中文单文本关键词提取模型。该模型首先对待提取文本进行预处理以选取候选词,接着使用BERT模型的隐藏层结合全文信息获取候选词的词向量,然后加入聚类层筛除语义重复的候选词,最后获取全文语义向量并计算候选词与全文的语义的相似度评分,经排序后提取关键词。实验结果表明:将模型用于混合主题中文论文摘要等较短文本,在提取关键词的数量分别为5和8时,该模型的准确率分别为34.21%和26.34%,优于Text Rnka、TF-IDF等传统提取模型,表明该模型通过融合语义信息提升了中文单文本关键词提取的准确率,改善了关键词重复提取的问题,使提取的关键词更加准确,有效提升了中文单文本关键词提取质量。 摘要译文
    关键词: 关键词提取 ;无监督 ;BERT模型 ;文本向量化 ;单文本
    智能阅读
    免费下载
    引用
    被引量 6
    6
    6. 认领
    【期刊论文】 •

    发文量: 被引量:0

    华秀丽 1,2

    发文量: 被引量:0

    朱巧明 2

    发文量: 被引量:0

    李培峰 2
    • 《计算机应用研究》 北大核心 CSCD • 2012年第3期 833 - 836, 共4页
    机构: [1] 苏州大学计算机科学与技术学院[2] 江苏省计算机信息处理技术重点实验室

    摘要: 基于统计的文本相似度量方法大多先采用TF-IDF方法将文本表示为词频向量,然后利用余弦计算文本之间的相似度。此类方法由于忽略文本中词项的语义信息,不能很好地反映文本之间的相似度。基于语义的方法虽然能够较好地弥补这一缺陷,但需要知识库来构建词语之间的语义关系。研究了以上两类文本相似度计算方法的优缺点,提出了一种新颖的文本相似度量方法,该方法首先对文本进行预处理,然后挑选TF-IDF值较高的词项作为特征项,再借助HowNet语义词典和TF-IDF方法对特征项进行语义分析和词频统计相结合的文本相似度计算,最后利用文本相似度在基准文本数据集合上进行聚类实验。实验结果表明,采用提出的方法得到的F-度量值明显优于只采用TF-IDF方法或词语语义的方法,从而证明了提出的文本相似度计算方法的有效性。 摘要译文
    关键词: 向量空间模型 ;语义分析 ;词频 ;概率分布 ;文本相似度
    智能阅读
    PDF下载
    引用
    被引量 93
    7
    7. 认领
    【期刊论文】 •

    发文量: 被引量:0

    詹志建

    发文量: 被引量:0

    杨小平
    • 《中文信息学报》 北大核心 CSCD • 2016年第4期 71 - 80, 共11页
    机构: [1] 中国人民大学信息学院

    摘要: 将传统的文本相似度量方法直接移植到短文本时,由于短文本内容简短的特性会导致数据稀疏而造成计算结果出现偏差。该文通过使用复杂网络表征短文本,提出了一种新的短文本相似度量方法。该方法首先对短文本进行预处理,然后对短文本建立复杂网络模型,计算短文本词语的复杂网络特征值,再借助外部工具计算短文本词语之间的语义相似度,然后结合短文本语义相似度定义计算短文本之间的相似度。最后在基准数据集上进行聚类实验,验证本文提出的短文本相似度计算方法在基于F-度量值标准上,优于传统的TF-IDF方法和另一种基于词项语义相似度的计算方法。 摘要译文
    关键词: 复杂网络 ;综合特征值 ;短文本 ;语义相似度
    智能阅读
    PDF下载
    引用
    被引量 33
    8
    8. 认领
    【期刊论文】 •

    发文量: 被引量:0

    钱程 1

    发文量: 被引量:0

    谢春丽 2

    发文量: 被引量:0

    王梦琦 1

    发文量: 被引量:0

    权雷 1
    • 《软件导刊》 • 2021年第7期 97 - 101, 共5页
    机构: [1] 江苏师范大学智慧教育学院[2] 江苏师范大学计算机科学与技术学院

    摘要: 源码相似性度量是代码推荐、缺陷监测、代码搜索等很多软件工程领域任务的基础工作。传统的源码相似性度量方法主要利用统计方法从代码的结构属性、文本特性两方面进行度量,缺乏对代码的语义相似性研究。为解决此类问题,在词嵌入基础上提出结合TF-IDF和Word2vec的向量空间模型,利用向量间距离衡量代码间的相似性,融合代码的语义信息和统计信息。实验结果表明,相比于传统基于统计的方法,该模型效果提高了15%。 摘要译文
    关键词: N-gram ;TF-IDF ;Word2Vec ;词嵌入 ;代码相似度
    智能阅读
    免费下载
    引用
    被引量 4
    9
    9. 认领
    【期刊论文】 •

    发文量: 被引量:0

    詹志建

    发文量: 被引量:0

    杨小平
    • 《计算机工程与应用》 CSCD • 2014年第5期 33 - 38, 共6页
    机构: [1] 中国人民大学信息学院计算机系

    摘要: 通过分析已有的基于统计和基于语义分析的文本相似性度量方法的不足,提出了一种新的基于语言网络和词项语义信息的文本相似度计算方法。对文本建立语言网络,计算网络节点综合特征值,选取TOP比例特征词表征文本,有效降低文本表示维度。计算TOP比例特征词间的相似度,以及这些词的综合特征值所占百分比以计算文本之间的相似度。利用提出的相似度计算方法在数据集上进行聚类实验,实验结果表明,提出的文本相似度计算方法,在F-度量值标准上优于传统的TF-IDF方法以及另一种基于词项语义信息的相似度量方法。 摘要译文
    关键词: 语言网络 ;文本聚类 ;文本相似度 ;词语相似度
    智能阅读
    PDF下载
    引用
    被引量 38
    10
    10. 认领
    【期刊论文】 •

    发文量: 被引量:0

    刘金岭 1

    发文量: 被引量:0

    宋连友 2

    发文量: 被引量:0

    范玉虹 2
    • 《计算机工程》 CSCD • 2012年第13期 58 - 60, 共4页
    机构: [1] 淮阴工学院计算机工程学院[2] 沧州师范学院计算机系

    摘要: 在传统TF-IDF模型基础上分析中文短信文本中特征词的语义信息,提出一种中文短信文本相似度度量方法。对短信文本进行预处理,计算各词语的TF-IDF值,并选择TF-IDF值较高的词作为特征词,借助向量空间模型的词语向量相似度,结合词语相似度加权,给出2篇短信文本相似度的计算方法。实验结果表明,该方法在F-度量值上优于TF-IDF算法及词语语义相似度算法。 摘要译文
    关键词: 短信文本 ;相似度 ;TF-IDF模型 ;特征词 ;向量空间模型
    智能阅读
    PDF下载
    引用
    被引量 15
    11
    11. 认领
    【期刊论文】 •

    发文量: 被引量:0

    赵士杰

    发文量: 被引量:0

    陈秋
    • 《计算机时代》 • 2015年第5期 1 - 3, 共4页
    机构: [1] 杭州电子科技大学软件与智能技术研究所

    摘要: 基于统计的TF-IDF相似度计算方法由于不考虑词语的语义信息,不能准确地反映文本间的相似性。针对该问题,提出一种结合语义理解和TF-IDF的科技项目相似度计算方法。在项目分词的基础上,利用《知网》计算两个项目间的特征项语义相似度,基于TF-IDF计算每个特征项的权重,然后针对权重大于给定阈值的特征项进行加权进而计算得到项目相似度值。实验结果表明,该方法效果优于单纯的TF-IDF和语义理解的方法。 摘要译文
    关键词: 语义理解 ;《知网》 ;特征项权重 ;相似度计算
    智能阅读
    PDF下载
    引用
    被引量 11
    12
    12. 认领
    【期刊论文】 •

    发文量: 被引量:0

    胡维华

    发文量: 被引量:0

    鲍乾

    发文量: 被引量:0

    李柯
    • 《杭州电子科技大学学报(自然科学版)》 • 2016年第3期 36 - 41, 共6页
    机构: [1] 杭州电子科技大学计算机学院

    摘要: 利用VSM模型的TF-IDF算法对文本进行相似度量是文本信息处理领域的常用做法,但是该方法涉及到高维稀疏矩阵的处理,计算效率不高,不利于处理大规模文本,同时该方法忽略词项语义信息对文本的影响.另有一种基于语义的相似度算法可克服前一种方法的语义缺点,但需要知识库的支持,其建立过程的繁杂使此类算法理论多过实践.为此提出一种新的文本相似度计算方法,方法综合TF-IDF算法以及HOWNET的语义信息,并利用汉明距离计算文本相似度,避开对高维稀疏矩阵的直接处理.实验结果表明,与常用方法相比较,处理速度更快、性能更好,适用于大规模文本处理. 摘要译文
    关键词: 文本相似度 ;向量空间模型 ;词频—逆文本频率 ;语义 ;汉明距离
    智能阅读
    免费下载
    引用
    被引量 18
    13
    13. 实质审查的生效
    【专利/发明】 • CN202411657556.8 •

    发文量: 被引量:0

    李旭杰

    发文量: 被引量:0

    李兴杰

    发文量: 被引量:0

    裴珂

    发文量: 被引量:0

    赵宇轩
    +1位作者
    • 申请日:2024-11-19, 公开日:2025-03-14

    申请人: 河海大学
    公开(公告)号: CN119622353A
    摘要: 本发明提出了一种基于相似性度量的水文监测数据通信规约智能解析方法,结合文本分类的思想,将水文监测数据通信规约报文数据处理成文本数据,采用相似性度量的方案对待解析的报文数据和生成的规约模板进行模板匹配,实现报文数据的解析。所述方法包括:根据规约的语义信息对报文数据进行分词处理;对分词后的数据加入不同分段的位置信息,将规约语义和数据绑定,形成文本分类中的分词效果;利用词频‑逆文档频率(TF‑IDF)对规约报文进行挖掘,得到高频字段的权重矩阵作为报文的特征矩阵;利用特征矩阵生成规约类型模板和规约字段模板;最后根据相似性度量规则,实现报文与模板的精确匹配,并根据模板的匹配结果实现规约报文智能解析。 摘要译文
    引用
    14
    14. 授权
    【专利/发明】 • CN202210173115.5 •

    发文量: 被引量:0

    张文

    发文量: 被引量:0

    赵江鹏

    发文量: 被引量:0

    李瑞

    发文量: 被引量:0

    李健
    • 申请日:2022-02-24, 公开日:2024-12-20

    申请人: 北京工业大学
    公开(公告)号: CN114546699B
    摘要: 本发明公开了一种基于查询扩展的新增软件缺陷定位方法,本方法对历史缺陷报告、软件源代码的文本内容进行自然语言处理,采用以上语料训练词向量模型;通过词向量结合词项的TF‑IDF值得到源代码中每个方法的文本向量;计算方法之间的语义相似度,修改临近度和依赖紧密度,得到方法之间的综合关联度;根据综合关联度对方法的文本向量进行扩展,得到方法的扩展表示向量;计算新缺陷报告的文本向量,与所有方法的扩展表示分别计算相似度,选择相似度最高的若干方法作为该缺陷报告对应的方法;本发明给软件开发人员和项目管理人员给出了明确的缺陷定位信息,减轻了缺陷修复人员从源代码的海量方法中查找缺陷的工作量,提升了软件缺陷修复的工作效率。 摘要译文
    引用
    15
    15. 授权
    【专利/发明】 • CN202210173115.5 •

    发文量: 被引量:0

    张文

    发文量: 被引量:0

    赵江鹏

    发文量: 被引量:0

    李瑞

    发文量: 被引量:0

    李健
    • 申请日:2022-02-24, 公开日:2022-05-27

    申请人: 北京工业大学
    公开(公告)号: CN114546699A
    摘要: 本发明公开了一种基于查询扩展的新增软件缺陷定位方法,本方法对历史缺陷报告、软件源代码的文本内容进行自然语言处理,采用以上语料训练词向量模型;通过词向量结合词项的TF‑IDF值得到源代码中每个方法的文本向量;计算方法之间的语义相似度,修改临近度和依赖紧密度,得到方法之间的综合关联度;根据综合关联度对方法的文本向量进行扩展,得到方法的扩展表示向量;计算新缺陷报告的文本向量,与所有方法的扩展表示分别计算相似度,选择相似度最高的若干方法作为该缺陷报告对应的方法;本发明给软件开发人员和项目管理人员给出了明确的缺陷定位信息,减轻了缺陷修复人员从源代码的海量方法中查找缺陷的工作量,提升了软件缺陷修复的工作效率。 摘要译文
    引用
    16
    16. 发明专利申请公布后的撤回
    【专利/发明】 • CN202210072886.5 •

    发文量: 被引量:0

    马海江

    发文量: 被引量:0

    周加全

    发文量: 被引量:0

    柴功昊

    发文量: 被引量:0

    阮慎
    +4位作者
    • 申请日:2022-01-21, 公开日:2022-05-13

    申请人: 广西科技师范学院
    公开(公告)号: CN114491033A
    摘要: 本发明涉及用户兴趣模型构建领域,具体涉及一种基于词向量和主题模型的用户兴趣模型构建的方法,包括以下步骤:S1、语料库的构建及数据预处理;S2、构建向量空间模型;S3、构建主题模型;S4、将向量空间模型计算的文本相似性与主题模型计算的文本相似性进行线性结合;S5、通过k‑means聚类算法将相似度高的文本的聚合在一起,从而生成用户兴趣模型。该发明通过对文档进行VSM建模和LDA建模,利用LDA模型提取出文本间的语义信息,结合基于VSM的tf‑idf权重词向量,再将这两种方法进行线性加权融合在一起,实现文本间的相似性有效计算,从而提高用户兴趣模型的质量,同时也解决了传统构建方法存在的缺陷。 摘要译文
    引用
    17
    17. 认领
    【会议论文】 •

    发文量: 被引量:0

    黄承慧

    发文量: 被引量:0

    印鉴
    作者单位: [1] 中山大学[2] 中山大学

    会议名称: 2010年中国计算机大会
    会议时间: 2010-10-11
    摘要: 文本聚类大多采用TF-IDF方法把文本建模为词频向量,利用余弦等相似度量方法计算文本之间的相似度,以此进行文本聚类.这些方法忽略了文本中词的语义信息,改进的基于语义的文本聚类方法则缺少文本之间相似度的定义,无法反映两篇文本之间的相似程度,聚类效果局限于某些特定领域.本文在TF-IDF模型基础上分析文本中重要词汇的语义信息,提出了一种新的文本相似度量方法.该方法首先应用自然语言处理技术对文本进行预处理,然后利用TF-IDF方法寻找文本中具有较高IF-IDF值的重要词项. 借助外部词典分析词项之间的语义相似度,结合文中提出的词项相似度加权树计算两篇文本之间的相似度,最后利用文本相似度进行聚类.实验时比了TF-IDF方法以及另一种基于语义相似性的文本相似度,实验结果表明该方法在基于F-度量值标准上能够提升文本聚类的查准率和查全率. 摘要译文
    关键词: 文本聚类 ;语义 ;TF-IDF模型 ;文本相似度量法
    引用
    18
    18. 认领
    【学位/硕士】 •

    发文量: 被引量:0

    邓宇浩
    • 重庆理工大学 • 导师:李彦 • 2024年

    摘要: 作为Web2.0时代的新生网络应用形式,微博因其传播速度快、互动性强等特点,自诞生后便迅速发展,成为国内聚焦舆情规模最大的网络社交平台。由于微博较强的易传播性和易扩散性,热点事件在其发酵下,容易发生网络暴力、恶意造谣等消极行为,危害公共安全。根据微博自身特点设计一种合理的、高效的热点话题检测方法,能够帮助政府和相关部门实时监管网络舆情,为下一步的研判、引导工作提供决策支撑。针对现有方法在文本建模和聚类算法中存在的瓶颈和局限性,本文提出一种基于半监督和增量聚类算法的微博热点话题检测方法,具体工作内容如下: (1)基于半监督SBERT模型的微博文本建模方法:在文本建模阶段,由于微博文本具有表达随意性、内容碎片化等特点,而预训练的SBERT模型建模能力依赖于其预训练语料库,因此难以捕获其中特有的语义信息。针对这一问题,在微博文本建模阶段将半监督思想引入SBERT模型,先利用少量有标签数据作为先验,用于模型有监督学习微博特有的语义知识,再将其泛化到剩余的无标签微博上,生成优质的微博文本向量,用于后续的无监督任务。 (2)基于改进SinglePass增量聚类算法的微博热点话题检测方法:在聚类阶段,针对SinglePass增量聚类算法存在的效率问题和小簇问题进行改进,并应用于微博热点话题检测。对于算法效率问题,通过在聚类过程中引入时间窗口和自编码降维,以降低计算次数及复杂度,提高算法效率。对于算法所产生小簇,在文本-簇相似度计算方式上使用Average-link策略,并在迭代完成后增加了一个簇合并过程,用于处理产生的小簇。最后,在话题关键词提取阶段,将词热度融入到基于类的词频-逆文档频率(class-Based Term Frequency-Inverse Document Frequency,c-TF-IDF)中,用于提取描述话题簇的关键词。 (3)实验分析与结果可视化:将提出方法应用到所采集的微博数据集上进行实验,并与多种已有的模型或方法进行对比。实验结果表明,所提出方法在聚类纯度、F1值、互信息三个性能指标上均高于对比方法,证明了方法的先进性。又通过消融实验验证了方法中所作创新和改进措施的有效性。最后将该方法在数据集上检测到的微博热点话题结果结合UMAP降维及词云技术进行可视化。 摘要译文
    关键词: 话题检测 ;主题模型 ;预训练模型 ;增量聚类 ;半监督学习
    引用
    19
    19. 认领
    【学位/硕士】 •

    发文量: 被引量:0

    何金金
    • 青岛大学 • 导师:郭振波 • 2018年

    摘要: 基于评论的用户情感倾向性分析指的是利用机器学习或者语义分析的方法,以用户评论这种主观性文本信息作为研究对象,将获取的评论文本进行预处理、分类、聚类、特征提取以及情感分析,以达到有效挖掘其中潜在的价值信息的目的。尽管目前评论文本的情感倾向研究已经取得了一定的成果,但是大都停留在评论文本的总体褒贬性分析研究,缺乏针对评价对象的情感倾向性研究,而用户更需要针对评价对象的细粒度情感分析,因此研究具有一定的现实意义。本文借助前人在自然语言处理等相关研究基础上,针对在线网评文本提出了一种针对评价对象的情感倾向性分析模式,本文将利用基于深度学习的文本向量化工具所获得的文本向量运用在词图模型上并结合句法依存关系对评价对象和与评价特征分别提取,并将ku的方法改进后对评价特征的情感值进行计算,提升了评价特征情感度量的精准性。本文主要研究工作按照对评论文本处理的流程分为以下几个部分(1)构造了一套针对于对象以及评价词分别提取的情感分析模式,对评论文本的情感分析更加细粒度化。(2)在评价对象抽取方面,利用基于word2vec的词与词之间的相似值与传统TextRank特征提取方法当中的边权值进行融合,对TextRank方法进行改进,并利用其对评价对象进行抽取。(3)在评价特征抽取方面,利用基于情感词典的方法,依据句法依存关系制定了评价词的抽取规则,并以评价词为中心完成对整体评价特征的抽取任务。(4)在情感值计算方面,借助TF-IDF的思想对ku的情感词情感强度的计算方式进行了改进,并利用该方法对抽取的评价对象和评价特征组合进行综合情感分析。 摘要译文
    关键词: 情感分析 ;TextRank ;评价对象 ;评价特征
    引用
    被引量 2
    20
    20. 认领
    【学位/硕士】 •

    发文量: 被引量:0

    苏凯晟
    • 江西财经大学 • 导师:廖汗成 • 2023年

    摘要: 随着信息时代的快速发展,互联网上每天都有海量的中文文本数据产生,大量的数据资源涌入人们的视野,同时也带来了信息过载等问题。如何对海量的文本数据进行处理,使得人们能够快速地浏览到想要的文本内容变得愈发重要。因此通过技术生成文本摘要是十分有必要的。在Text Rank算法中,图模型构建的质量对生成的摘要结果有着重要影响。基于“投票”机制的节点权重计算需要同时考虑节点自身的重要性与相连节点的重要性,因此需要对图模型节点有更丰富地表示,节点之间边的关系应当也要有更深的考量。基于此,本文对该算法提出一些改进措施,以期生成质量更高的摘要。本文在图模型构建时引入BERT模型生成的句向量对节点进行表示,该模型具有更强的抽取能力,能够更好地表达文本语义信息。同时,使用余弦相似度计算规则计算句子之间的相似度,以此来改进原算法采用的基于内容重叠的相似度计算方式;不同重要程度的节点对其他节点的影响是不同的,本文提出了一种融合句子特征的边权重计算方式,同时考虑文本的语义信息和结构信息,将相似度矩阵与句子位置特征、句子关键词特征、句子线索词特征以及句子标题特征进行融合,优化节点间边的权重,以此改进原算法中边权重只考虑句子之间相似度的方式;针对抽取的摘要句间存在的语义重复问题,本文引入改进的最大边界相关算法对候选摘要句进行处理,通过减少语句的冗余提高摘要抽取的质量;本文将标题中的词语与从文本中抽取的关键词结合,共同构建文本的关键词表,将其应用于文本的关键词权重计算中。传统的Text Rank算法在抽取关键词时仅以词共现形式进行节点间的构建,因此对关键词的抽取进行优化,结合Word2Vec模型与Text Rank算法,引入外部语义特征生成词向量,综合考虑词的词性、词频、词位置、词跨度因素,结合词向量相似度关系对关键词进行抽取。本文首先对句子位置特征、句子关键词特征、句子线索词特征以及句子标题特征的重要程度进行比较,通过设计相关实验对各项特征的权重因子进行确定;为验证本文改进的关键词抽取算法性能,通过计算抽取的不同个数关键词的准确率、召回率以及F1值,将该算法与TF-IDF算法、传统的Text Rank算法进行比较;使用Rouge指标对本文改进算法的抽取的摘要质量进行评价,并与Lead-N方法、MMR算法与Text Rank算法进行对比实验。在NLPCC 2017数据集对本文改进的关键词抽取算法与摘要抽取算法进行实验,结果表明在该数据集中两种算法的性能较于传统方法表现更优。 摘要译文
    关键词: 文本摘要 ;BERT模型 ;句子权重 ;TextRank算法
    引用
    已选:0 清除
    批量下载
    批量引用
    • 1
    • 2
    • 3
    • 4
    • 5
    关于维普
    公司介绍
    产品服务
    联系我们
    问题帮助
    使用帮助
    常见问题
    文献相关术语解释
    合作与服务
    版权合作
    广告服务
    友情链接
    客服咨询
    投稿相关:023-63416211
    撤稿相关:023-63012682
    查重相关:023-63506028
    重庆维普资讯有限公司 渝B2-20050021-1 渝公网备 50019002500403
    违法和不良信息举报中心   举报邮箱:jubao@cqvip.com   互联网算法推荐专项举报:sfjubao@cqvip.com    网络暴力专项举报: bljubao@cqvip.com
    网络出版:(署)网出证(渝)字第014号    出版物经营许可证:新出发2018批字第006号   
    • 客服热线

      400-638-5550

    • 客服邮箱

      service@cqvip.com

    意见反馈
    关于旧版官网用户迁移的说明