摘要:聚类分析是多元统计分析中研究“物以类聚”的重要分支,其前身是人类认识世界的基础科学——分类学(数值分...聚类分析是多元统计分析中研究“物以类聚”的重要分支,其前身是人类认识世界的基础科学——分类学(数值分类学)。随着信息科学、计算机科学的迅猛发展,人类进入大数据时代。这一时代的聚类分析呈现高度计算机化、智能化特征,与数据挖掘技术高度结合。聚类分析可自动从复杂样本数据进行聚类,无需在分析前确定分类的标准。聚类分析的这些特点,使其在很多领域,如文本分类、机器学习、模式识别、图像分析等,得到广泛的应用。聚类分析可分为硬聚类和软聚类。软聚类即模糊聚类,是硬聚类的拓展,即由明确的类别关系拓展为模糊的类别关系。模糊C均值(Fuzzy C Means,简称FCM)聚类是应用最广泛的模糊聚类方法。类别数是影响FCM聚类效果的主要因素,有效性度量则常用于评价FCM聚类效果。因此有效性度量常作为选择FCM类别数的指标,是FCM算法改进研究的重点内容。文本分类是FCM的应用方向之一,其改进研究多集中在改进FCM的性能以提升分类效果,很少从文本数据本身的特征进行。本文基于以上两点进行研究,并获得两个研究成果。第一,本文提出一个新的有效性度量指标——XB+。较Xie和Beni提出的XB指标,XB+包含更多的类间信息,因此能更好地选择类别数。同时本文给出在5种不同数据集上的模拟实验,比较XB+与常用的4种有效性度量。模拟实验结果表明XB+在凸数据集上比其他4种度量表现略优。第二,本文提出结合LDA(Latent Dirichlet Allocation)与FCM算法的文本分类方法——LDA-FCM算法。文本数据通常是无法被计算机直接理解和处理的自然语言数据,在挖掘分析前需向量化表示,而向量化表示的文本数据是稀疏的和高维度的。同时文本数据具有词义模糊性(如一词多义和多词一义)和类别模糊性。本文提出的LDA-FCM算法,能降低文本数据的维度,降低由模糊性导致的分类错误率。同时给出LDA-FCM进行中文文本分类的实证研究,比较K-means、FCM及LDA-FCM的分类效果。更多还原显示全部
摘要:近年来随着社交网络的蓬勃发展,社交网络在信息的传播广度和速度上都更具优越性。因此,专门针对社交网络的...近年来随着社交网络的蓬勃发展,社交网络在信息的传播广度和速度上都更具优越性。因此,专门针对社交网络的话题检测研究也随之兴起。如何及时准确地检测出有价值的话题,对于舆情分析、热点新闻挖掘等领域有很重要的意义。本文主要从文本表示模型、在线话题检测算法和趋势分析指标提取三个方面进行改进。首先,为了综合考虑词在不同长度的文档中权重应该不同的特点,以及词本身的词频特征和词与文档之间的关联性特征,本文提出了一种基于改进的TF-IDF(Term Frequency-Inverse Document Frequency)与点互信息(Pointwise Mutual Information,PMI)的文本表示模型——PT权重值(PMI and TF-IDF weight),使得该模型能够更好地应用于微博中的短文本,并提出了基于该模型的非负矩阵分解文本聚类算法NMFPT(Non-negative Matrix Factorization(NMF)based on Pointwise mutual and Tf-idf),另外,算法还通过引入L2正则化因子来避免因数据稀疏导致的过拟合问题。最后通过实验证明了该算法相比于原算法在准确度上有所提升。其次,为了能够检测出随时间动态到达的文本流中的话题,本文提出一种基于时间窗以及簇合并的层次非负矩阵分解在线话题检测算法HNMF_TC(Hierarchical NMF based on Time window and Cluster merging)。为了解决原始层次非负矩阵分解算法在选择分解簇时仅考虑簇中数据点数量的不足,本算法引入了mNDCG值(modified Normalized Discounted Cumulative Gain)来衡量分解过程中每个簇的凝聚度,再使用混合相似度算法来合并两个相邻时间窗的话题集。最后通过对比实验验证了本文算法在准确度上有所提升。然后,本文确立了趋势分析的目标。通过分析,提取出了影响趋势走势的用户相关指标、博文相关指标和时间相关指标,并将意见领袖影响力因素加入用户相关指标中,提出了基于改进的KED算法的意见领袖影响力评估方法,该方法将共同关注数作为补充指标加入了原始方法中。然后使用梯度提升回归树作为预测模型。最后,通过在真实微博数据集中进行实验证明了本文提出的预测模型的合理性、准确性以及通用性。更多还原显示全部
摘要:用自然语言处理(Natural Language Processing,NLP)技术分析法律文本,能够为法律工作者提供有效的法律依据,...用自然语言处理(Natural Language Processing,NLP)技术分析法律文本,能够为法律工作者提供有效的法律依据,从而辅助法律决策和立法。因此,如何利用NLP技术有效地处理法律文本已经成为一个重要的研究课题。命名实体识别是自然语言处理中最重要的任务之一,然而,法律命名实体往往比普通命名实体拥有更多的嵌套层次,对法律类文本的命名实体识别难度相对较大。针对此背景,本论文提出了一种基于隐式马尔科夫模型(Hidden Markov Model,HMM)的法律文本命名实体识别(Named Entity Recognition,NER)模型,用于中文法律文本的命名实体识别和实体关系抽取。本文首先调查研究了国内外中文NER技术的发展现状、中文分词技术研究现状、中文信息抽取技术研究现状、以及法律文本分析模型的研究现状,之后介绍了HMM模型的假设和构建过程,并叙述了HMM模型的建模、训练与求解过程。随后,本文提出了一个基于隐式马尔科夫的法律命名实体识别模型。该模型使用多个HMM模型串联对文本进行由浅至深层次的实体识别,先使用N元模型对语句进行分词,低层HMM模型的输出作为高层HMM模型的输入,并利用搜索引擎识别并消解同义命名实体,从而完成针对法律文本的命名实体识别过程。之后,本文使用公开的数据集和法律文本数据集对提出的模型进行测试,并与目前NER效果最好的三个模型进行对比实验,本文提出的模型在实验中对人名的识别F-1值达到了90%,地理名和机构名结果F-1值也均高于其他三种模型,证明本文提出的模型有更好的命名实体识别效果。其次,在基于隐式马尔科夫的法律命名实体识别模型的基础上,本文又设计和开发了法律文本分析平台,该平台能够完成信息检索、实体关系知识图谱绘制等文本处理功能,为文本分析研究者和法律工作者提供了便利的文本分析工具。最后,本文对开发的法律文本分析平台进行系统测试,测试结果同样证明了基于隐式马尔科夫的法律命名实体识别模型能够有效地完成针对法律文本的NER任务。更多还原显示全部