导 师: 李宁
学科专业: H1001
授予学位: 硕士
作 者: ;
机构地区: 中山大学
摘 要: internet的快速发展,www的广泛应用以及所有用户行为的网络化,使得收集用户的web访问日志数据、深入研究用户行为规律成为数据挖掘的重要研究方向,并由此产生web日志挖掘。web日志挖掘是指使用数据挖掘技术,对用户与web服务器在交互时产生的数据进行分析,发现隐含的规律性知识,得到用户访问站点的频繁程度和行为模式,从而改善web站点结构及页面间的超链接结构,提高站点的服务质量,改进站点性能,同时加强网站的安全性。 本文讨论了web日志数据预处理的意义、一般过程及日志数据的预处理方法。在研究了国内外现有web日志挖掘算法的基础上,重点对数据结构是一个用户/页面(userid-url)关联矩阵的聚类算法进行了研究和分析。通过编写和实施weblogminev1.0程序将统计分析、聚类算法、频繁路径发现算法结合起来构成了一个混合处理系统。并以广东轻工职业技术学院网络中心web服务器上的web日志为数据源,在weblogminev1.0上进行了实例挖掘,实现了用户聚类、页面聚类和频繁访问路径等模式发现。进一步考虑把这个混合处理系统应用到web站点,可以建设一个自适应智能化网站,从而为网站管理和决策者提供有力的支持。
关 键 词: 日志挖掘 应用 数据挖掘 服务器 服务质量 关联矩阵 聚类算法
分 类 号: [TP393.09 TP311.13]