导 师: 肖明
授予学位: 硕士
作 者: ();
机构地区: 广东工业大学
摘 要: 从Amazon的商品推荐到Netflix的电影推送,图书、音乐、电影等各个领域都离不开个性化推荐系统。中国每年图书新出版种数多达几十万种,每年图书的总信息量远远超过个人需求的信息量,图书领域信息过载问题愈发突出,所以个性化推荐对图书产业越来越重要。相似度计算方法是个性化推荐算法的重要部分之一,直接影响推荐算法的性能。传统的相似度计算方式主要利用用户之间或者物品之间的共同评分项来计算相似度,当数据相对稀疏时,该方法推荐效果不尽人意。同时,单一的推荐算法在实际场景中,效果欠佳。针对上述问题,本论文进行了如下研究工作:首先,在数据相对稀疏的场景下,针对协同过滤推荐算法无法准确的找出用户之间相似性的问题,研究了基于RJaccard系数的协同过滤推荐算法(RJCF)。该算法利用RJaccard系数,通过用户或者物品之间的全局评分项计算相似度,在数据相对稀疏的场景中,能够准确的找出用户之间的相似性。其次,为了弥补RJCF算法挖掘用户隐含信息能力的不足,提出一个新的混合推荐算法,该算法从用户和物品两个角度出发,利用机器学习分别建立线性回归模型,并将RJCF算法和两个线性回归模型进行融合。该混合推荐算法在数据集Book-Crossing上进行实验仿真。结果表明,该混合推荐算法与单一的算法相比,取得了更好的推荐效果。最后,为了数据的存储、建模所需的计算量问题,我们搭建了基于Hadoop的大数据平台,并在该平台上完成了混合推荐模型的仿真实验。搭建过程包括在linux系统的服务器上安装CDH,配置core-site.xml、hdfs-site.xml、mapred-site.xml以及yarn-site.xml等核心配置文件。在搭建平台后,采用集群中的HDFS、MapReduce、Mahout等分布式组件,实现图书推荐系统的数据存储、数据清洗和推荐算法建模。综上所述,本文利用RJaccard相似度计算方式结合线性回归模型,提出一种应用于图书领域的混合推荐算法,并在Hadoop大数据平台中对其进行了实验验证,取得了很好的效果。更多还原
关 键 词: [4275161]协同过滤 混合推荐 [8506740]HADOOP [2696800]图书推荐 [6014024]个性化
分 类 号: [TP391.3]
领 域: []