帮助 本站公告
您现在所在的位置:网站首页 > 知识中心 > 文献详情
文献详细Journal detailed

基于MapReduce编程模型加权图边权值计算方法的研究

导  师: 毛睿;冯禹洪

授予学位: 硕士

作  者: ();

机构地区: 深圳大学

摘  要: 随着互联网技术的兴起以及大数据的发展,数据,已经渗透到很多行业。一方面,各种应用程序和社交网络产生的数据量日益增加,另一方面,数据趋于多样化和复杂化。随着数据量和数据类型的增加,研究人员对海量数据的挖掘和运用,可以从中获取更多隐藏的模式,发现更多的商业信息,从而实现增值价值。目前对数据挖掘的方法主要有:关联分析、协同过滤、聚类分析、回归分析、偏差分析等。但是许多数据挖掘方法都是基于图结构,然后辅之算法操作,使得数据间关联性充分表达,从而获取有价值的信息。海量数据的加权图构造对基于加权图论的数据挖掘至关重要,因此,基于加权图的数据挖掘中,实现大规模数据自动提取加权图是必不可少的。对于加权图的构造包括:(1)顶点确定;(2)特征提取;(3)边权值计算。其中加权图边的权值计算是一个计算密集型和I/O密集型的任务。当对海量数据计算时,单台机器由于内存等资源的限制,是相当耗时的,往往会随着计算量的增大而导致无法在特定的时间内完成任务。因此,为了克服单台机器资源的限制,本文围绕加权图构造方案展开研究,首次提出基于MapReduce编程模型加权图边权值计算方法的研究,并对其进行分类,实现和评估。首先,本文借助于流行的MapReduce并行分布式编程模型,提出边权值计算算法,并介绍如何将他们在MapReduce并行分布式框架中实现,从而实现加权图的自动构造。其次,加权图中边权值的准确度会影响数据挖掘的结果,本文结合当前的工作对边权值准确度进行测量。对于加权图边权值的准确性我们提出了综合性的评估方法,包括:边的数量、力度分布、社区构造、Hop-plot、和有效直径。最后,通过真实的社交网络数据集对提出的加权图边权值计算算法在执行时间、内存消耗、和磁盘使用方面做一个性能评

关 键 词: 提取加权图 边权值计算 相似性度量 数据分析

领  域: []

相关作者

作者 陈天祥
作者 何新慧
作者 刘鸿展
作者 钟杏云
作者 陶红丽

相关机构对象

机构 中山大学
机构 暨南大学
机构 华南师范大学
机构 中山大学管理学院
机构 华南理工大学

相关领域作者