帮助 本站公告
您现在所在的位置:网站首页 > 知识中心 > 文献详情
文献详细Journal detailed

社交网络中话题检测与趋势分析及预测算法改进研究

导  师: 邓辉舫

授予学位: 硕士

作  者: ();

机构地区: 华南理工大学

摘  要: 近年来随着社交网络的蓬勃发展,社交网络在信息的传播广度和速度上都更具优越性。因此,专门针对社交网络的话题检测研究也随之兴起。如何及时准确地检测出有价值的话题,对于舆情分析、热点新闻挖掘等领域有很重要的意义。本文主要从文本表示模型、在线话题检测算法和趋势分析指标提取三个方面进行改进。首先,为了综合考虑词在不同长度的文档中权重应该不同的特点,以及词本身的词频特征和词与文档之间的关联性特征,本文提出了一种基于改进的TF-IDF(Term Frequency-Inverse Document Frequency)与点互信息(Pointwise Mutual Information,PMI)的文本表示模型——PT权重值(PMI and TF-IDF weight),使得该模型能够更好地应用于微博中的短文本,并提出了基于该模型的非负矩阵分解文本聚类算法NMFPT(Non-negative Matrix Factorization(NMF)based on Pointwise mutual and Tf-idf),另外,算法还通过引入L2正则化因子来避免因数据稀疏导致的过拟合问题。最后通过实验证明了该算法相比于原算法在准确度上有所提升。其次,为了能够检测出随时间动态到达的文本流中的话题,本文提出一种基于时间窗以及簇合并的层次非负矩阵分解在线话题检测算法HNMF_TC(Hierarchical NMF based on Time window and Cluster merging)。为了解决原始层次非负矩阵分解算法在选择分解簇时仅考虑簇中数据点数量的不足,本算法引入了mNDCG值(modified Normalized Discounted Cumulative Gain)来衡量分解过程中每个簇的凝聚度,再使用混合相似度算法来合并两个相邻时间窗的话题集。最后通过对比实验验证了本文算法在准确度上有所提升。然后,本文确立了趋势分析的目标。通过分析,提取出了影响趋势走势的用户相关指标、博文相关指标和时间相关指标,并将意见领袖影响力因素加入用户相关指标中,提出了基于改进的KED算法的意见领袖影响力�

关 键 词: 话题检测 趋势分析 层次非负矩阵分解 意见领袖影响力 梯度提升回归树

领  域: []

相关作者

作者 李金波
作者 刘舒婷
作者 吴尤可
作者 丘瑜
作者 吴良平

相关机构对象

机构 广东金融学院法律系
机构 中山大学
机构 华南师范大学经济与管理学院
机构 华南理工大学
机构 广东财经大学

相关领域作者