摘要:近年来随着社交网络的蓬勃发展,社交网络在信息的传播广度和速度上都更具优越性。因此,专门针对社交网络的...近年来随着社交网络的蓬勃发展,社交网络在信息的传播广度和速度上都更具优越性。因此,专门针对社交网络的话题检测研究也随之兴起。如何及时准确地检测出有价值的话题,对于舆情分析、热点新闻挖掘等领域有很重要的意义。本文主要从文本表示模型、在线话题检测算法和趋势分析指标提取三个方面进行改进。首先,为了综合考虑词在不同长度的文档中权重应该不同的特点,以及词本身的词频特征和词与文档之间的关联性特征,本文提出了一种基于改进的TF-IDF(Term Frequency-Inverse Document Frequency)与点互信息(Pointwise Mutual Information,PMI)的文本表示模型——PT权重值(PMI and TF-IDF weight),使得该模型能够更好地应用于微博中的短文本,并提出了基于该模型的非负矩阵分解文本聚类算法NMFPT(Non-negative Matrix Factorization(NMF)based on Pointwise mutual and Tf-idf),另外,算法还通过引入L2正则化因子来避免因数据稀疏导致的过拟合问题。最后通过实验证明了该算法相比于原算法在准确度上有所提升。其次,为了能够检测出随时间动态到达的文本流中的话题,本文提出一种基于时间窗以及簇合并的层次非负矩阵分解在线话题检测算法HNMF_TC(Hierarchical NMF based on Time window and Cluster merging)。为了解决原始层次非负矩阵分解算法在选择分解簇时仅考虑簇中数据点数量的不足,本算法引入了mNDCG值(modified Normalized Discounted Cumulative Gain)来衡量分解过程中每个簇的凝聚度,再使用混合相似度算法来合并两个相邻时间窗的话题集。最后通过对比实验验证了本文算法在准确度上有所提升。然后,本文确立了趋势分析的目标。通过分析,提取出了影响趋势走势的用户相关指标、博文相关指标和时间相关指标,并将意见领袖影响力因素加入用户相关指标中,提出了基于改进的KED算法的意见领袖影响力评估方法,该方法将共同关注数作为补充指标加入了原始方法中。然后使用梯度提升回归树作为预测模型。最后,通过在真实微博数据集中进行实验证明了本文提出的预测模型的合理性、准确性以及通用性。更多还原显示全部