文献详情 - Gdtheory理论粤军网|广东智库信息化平台

文献详细_{Journal detailed}

基于Hadoop的海量小文件合并的研究与设计

收藏

导　　师： 魏文国

授予学位： 硕士

作　　者： (）;

摘　　要： HDFS(Hadoop Distributed File System)是Hadoop的底层文件系统,负责海量数据的存储。一般而言,HDFS存储文件大小为PB甚至TB级别时,系统的存储性能高效;而当它存储海量小文件时,存储性能就显得不足,原因在于HDFS的主节点namenode内存存储大量的元数据,导致内存消耗过高,影响整个文件系统的读取性能。为了更好地提高HDFS存储海量小文件的性能,本文在原HDFS的基础上实现了一个新的海量小文件存储系统SHDFS(Small Hadoop Distributed File System)。SHDFS新设计了两大模块:合并与缓存模块。合并模块的工作是基于用户的最近邻推荐思想构建了关联文件挖掘模型,通过引入Pearson相关系数,挖掘文件之间的关联性,再对具有关联性的文件进行合并操作,减少了namenode内存存储的元数据量;缓存模块的工作是设计了基于对数线性算法的热点文件预测模型,为文件抽象出文件热度值,再根据文件的热度值挑选出热点文件,并将热点文件缓存至HBase数据库中。该模块旨在减少HDFS客户端与namenode交互的次数,进一步减缓namenode内存的压力,提高系统读取文件的效率。实验结果表明,系统存储等量的小文件,在namenode内存消耗方面,SHDFS的内存消耗比原HDFS平均减少了15%;对于文件读取的效率方面,在热点模式下,无论是随机读取单个文件还是顺序读取多个文件,SHDFS读取文件的效率都要比原HDFS高。实验证实了本文实现的海量小文件存储系统SHDFS,相对于原HDFS系统,有助于降低namenode节点的内存消耗,提高海量小文件的存储效率。

关键词： 海量小文件合并缓存

领　　域： [] []

基于Hadoop的海量小文件合并的研究与设计

参考文献更多+

二级参考文献更多+

引证文献更多+

二级引证文献更多+

同被引文献更多+

耦合作品文献更多+

相关文献更多+

相关作者

相关机构对象

相关领域作者

基于Hadoop的海量小文件合并的研究与设计

参考文献 更多+

二级参考文献 更多+

引证文献 更多+

二级引证文献 更多+

同被引文献 更多+

耦合作品文献 更多+

相关文献 更多+

相关作者

相关机构对象

相关领域作者

参考文献更多+

二级参考文献更多+

引证文献更多+

二级引证文献更多+

同被引文献更多+

耦合作品文献更多+

相关文献更多+