摘要: 作为Web2.0时代的新生网络应用形式,微博因其传播速度快、互动性强等特点,自诞生后便迅速发展,成为国内聚焦舆情规模最大的网络社交平台。由于微博较强的易传播性和易扩散性,热点事件在其发酵下,容易发生网络暴力、恶意造谣等消极行为,危害公共安全。根据微博自身特点设计一种合理的、高效的热点话题检测方法,能够帮助政府和相关部门实时监管网络舆情,为下一步的研判、引导工作提供决策支撑。针对现有方法在文本建模和聚类算法中存在的瓶颈和局限性,本文提出一种基于半监督和增量聚类算法的微博热点话题检测方法,具体工作内容如下:
(1)基于半监督SBERT模型的微博文本建模方法:在文本建模阶段,由于微博文本具有表达随意性、内容碎片化等特点,而预训练的SBERT模型建模能力依赖于其预训练语料库,因此难以捕获其中特有的语义信息。针对这一问题,在微博文本建模阶段将半监督思想引入SBERT模型,先利用少量有标签数据作为先验,用于模型有监督学习微博特有的语义知识,再将其泛化到剩余的无标签微博上,生成优质的微博文本向量,用于后续的无监督任务。
(2)基于改进SinglePass增量聚类算法的微博热点话题检测方法:在聚类阶段,针对SinglePass增量聚类算法存在的效率问题和小簇问题进行改进,并应用于微博热点话题检测。对于算法效率问题,通过在聚类过程中引入时间窗口和自编码降维,以降低计算次数及复杂度,提高算法效率。对于算法所产生小簇,在文本-簇相似度计算方式上使用Average-link策略,并在迭代完成后增加了一个簇合并过程,用于处理产生的小簇。最后,在话题关键词提取阶段,将词热度融入到基于类的词频-逆文档频率(class-Based Term Frequency-Inverse Document Frequency,c-TF-IDF)中,用于提取描述话题簇的关键词。
(3)实验分析与结果可视化:将提出方法应用到所采集的微博数据集上进行实验,并与多种已有的模型或方法进行对比。实验结果表明,所提出方法在聚类纯度、F1值、互信息三个性能指标上均高于对比方法,证明了方法的先进性。又通过消融实验验证了方法中所作创新和改进措施的有效性。最后将该方法在数据集上检测到的微博热点话题结果结合UMAP降维及词云技术进行可视化。 摘要译文