帮助 本站公告
您现在所在的位置:网站首页 > 知识中心 > 文献详情
文献详细Journal detailed

基于MapReduce的并行PLSA算法及在文本挖掘中的应用
MapReduce Based Parallel Probabilistic Latent Semantic Analysis for Text Mining

作  者: ; ; ; ; ;

机构地区: 中国科学院计算技术研究所智能信息处理重点实验室

出  处: 《中文信息学报》 2015年第2期79-86,共8页

摘  要: PLSA(Probabilistic Latent Semantic Analysis)是一种典型的主题模型。复杂的建模过程使其难以处理海量数据,针对串行PLSA难以处理海量数据的问题,该文提出一种基于MapReduce计算框架的并行PLSA算法,能够以简洁的形式和分布式的方案来解决大规模数据的并行处理问题,并把并行PLSA算法运用到文本聚类和语义分析的文本挖掘应用中。实验结果表明该算法在处理较大数据量时表现出了很好的性能。 PLSA((Probabilistie Latent Semantic Analysis) is a typical topic model. To enable a distributed computation of PLSA for the ever-increasing large datasets, a parallel PLSA algorithm based on MapReduce is proposed in this paper. Applied in text clustering and semantic analysis, the algorithm is demonstrated by the experiments for s its scalability in dealing with large datasets.

关 键 词: 概率主题模型 并行 语义分析

领  域: [自动化与计算机技术] [自动化与计算机技术]

相关作者

作者 廖剑锐
作者 沈元怿
作者 赵卫军
作者 许素辉
作者 郎晓秋

相关机构对象

机构 暨南大学
机构 华南师范大学
机构 广东外语外贸大学
机构 中山大学人文科学学院中文系
机构 华南师范大学文学院

相关领域作者

作者 李文姬
作者 邵慧君
作者 杜松华
作者 周国林
作者 邢弘昊