文献详情 - Gdtheory理论粤军网|广东智库信息化平台

文献类型

期刊论文学位论文会议论文专著研究报告课题成果报纸

帮助

可检索词： （英文）题名=T 作者=A 关键词=K 摘要=R 机构=O 主题=S 刊名=M 分类号=N

检索规则说明： [&]代表"并且"；[|]代表"或者"；[!]代表"不包含" (运算符两边不需要空格)

检索范例： 范例一：(k=科技[|]k=技术)[&]t=范并思
范例二：t=计算机应用与软件[&](R=C++[|]R=Basic)[!]t=西华师范大学

刊名：

主办单位：

出版地：

ISSN：

主编：

邮发代号：

中图分类号：选择

核心期刊

全部期刊核心期刊

语言

中文英文

时间限定

出版年份：从

到

年

资源类型

期刊论文学位论文会议论文专著研究报告课题成果报纸

文献详细_{Journal detailed}

面向海量高维数据的文本主题发现

收藏

作　　者： ;

机构地区： 华南理工大学

出　　处： 《情报杂志》 2015年第11期162-167,共6页

摘　　要： 针对潜在语义分析（LSA：Latent Semantic Analysis）方法在海量高维数据中的制约,提出K均值聚类的LSA方法（KLSA）：通过利用K均值聚类对主题词进行预处理,将主题词降到相对低维空间后再使用LSA方法;选取新浪微博文本数据作为具体研究对象,通过实验证明了所提出的方法能够在确保模型分类效果条件下,很好地满足海量高维数据对LSA方法计算速度的敏感要求。 Considering the constraints of Latent Semantic Analysis （LSA） method in massive high-dimensional data, this paper proposes an improved LSA method based on k-means algorithm, called KLSA. This method takes advantage of k-means algorithm to reduce those feature words to relatively low-dimensional space and then uses the LSA method. In order to ensure the validity of this idea, the paper chooses text data from Sina Weibo to conduct an experiment. It is proved that the proposed method can satisfy the requirements of compu- tational efficiency in massive high-dimensional data under the condition of ensuring the classification results.

关键词： 海量数据高维数据 LSA K均值聚类

分类号： [G350.7]

领　　域： []

面向海量高维数据的文本主题发现

参考文献更多+

二级参考文献更多+

引证文献更多+

二级引证文献更多+

同被引文献更多+

耦合作品文献更多+

相关文献更多+

相关作者

相关机构对象

相关领域作者

面向海量高维数据的文本主题发现

参考文献 更多+

二级参考文献 更多+

引证文献 更多+

二级引证文献 更多+

同被引文献 更多+

耦合作品文献 更多+

相关文献 更多+

相关作者

相关机构对象

相关领域作者

参考文献更多+

二级参考文献更多+

引证文献更多+

二级引证文献更多+

同被引文献更多+

耦合作品文献更多+

相关文献更多+