帮助 本站公告
您现在所在的位置:网站首页 > 知识中心 > 文献详情
文献详细Journal detailed

基于Hadoop的海量小文件合并的研究与设计

导  师: 魏文国

授予学位: 硕士

作  者: ();

机构地区: 广东技术师范学院

摘  要: HDFS(Hadoop Distributed File System)是Hadoop的底层文件系统,负责海量数据的存储。一般而言,HDFS存储文件大小为PB甚至TB级别时,系统的存储性能高效;而当它存储海量小文件时,存储性能就显得不足,原因在于HDFS的主节点namenode内存存储大量的元数据,导致内存消耗过高,影响整个文件系统的读取性能。为了更好地提高HDFS存储海量小文件的性能,本文在原HDFS的基础上实现了一个新的海量小文件存储系统SHDFS(Small Hadoop Distributed File System)。SHDFS新设计了两大模块:合并与缓存模块。合并模块的工作是基于用户的最近邻推荐思想构建了关联文件挖掘模型,通过引入Pearson相关系数,挖掘文件之间的关联性,再对具有关联性的文件进行合并操作,减少了namenode内存存储的元数据量;缓存模块的工作是设计了基于对数线性算法的热点文件预测模型,为文件抽象出文件热度值,再根据文件的热度值挑选出热点文件,并将热点文件缓存至HBase数据库中。该模块旨在减少HDFS客户端与namenode交互的次数,进一步减缓namenode内存的压力,提高系统读取文件的效率。实验结果表明,系统存储等量的小文件,在namenode内存消耗方面,SHDFS的内存消耗比原HDFS平均减少了15%;对于文件读取的效率方面,在热点模式下,无论是随机读取单个文件还是顺序读取多个文件,SHDFS读取文件的效率都要比原HDFS高。实验证实了本文实现的海量小文件存储系统SHDFS,相对于原HDFS系统,有助于降低namenode节点的内存消耗,提高海量小文件的存储效率。

关 键 词: 海量小文件 合并 缓存

领  域: [] []

相关作者

作者 伍晓峰

相关机构对象

机构 广州体育职业技术学院

相关领域作者