帮助 本站公告
您现在所在的位置:网站首页 > 知识中心 > 文献详情
文献详细Journal detailed

Mining access patterns of Web active user based on tree structure

作  者: ; ; ;

机构地区: 浙江大学计算机科学与技术学院

出  处: 《浙江大学学报(工学版)》 2009年第6期1005-1013,1140,共10页

摘  要: 传统Web挖掘技术面向所有Web用户,而访问网站时活跃用户与非活跃用户表现特征不同.基于此,提出一种面向活跃用户的访问模式挖掘方法,包括活跃用户会话提取算法(AUSM)和树型访问模式挖掘算法(WAP-BUM).AUSM扫描一遍日志数据即可挖掘Web活跃用户并提取会话信息,在提取的用户会话信息基础上,利用网站拓扑结构给出了一种基于树结构的频繁访问模式挖掘算法(WAPBUM).WAPBUM针对Web日志挖掘特点,通过对子树构造等价类,自下而上产生频繁子树.人工数据集和真实数据集上的实验都证明AUSM算法的运行时间与Web日志数据量成线性关系,且运行过程中内存保持稳定;WAPBUM在处理带根子树挖掘时明显快于FREQT算法,所挖掘结果可有效应用于网站结构分析. Conventional Web mining approaches generally employ the Web logs of all users when mining patterns. However, the behaviors of active users and inactive users are usually not the same when visiting the Web site. Therefore, an approach to access pattern mining was introduced, oriented to active users. The session-retrieval algorithm, named active user session miner (AUSM), was proposed to retrieve sessions of active users using one pass scan of the Web logs. Moreover, a tree-mining algorithm, named Web access pattern bottom up miner (WAPBUM), was presented to discover frequent access patterns from the retrieved sessions based on the topology of Web site. Based on the characteristics of the Web logs, WAP- BUM buihds the subtree equivalence classes and generated frequent subtrees from bottom to top. Performance of these two algorithms were evaluated both on the synthetic and real datasets. Experimental results show that the proposed algorithms are efficient and effective. AUSM can keep memory stable and its running time is linear to the log scale. WAPBUM is not only more efficient than the previous algorithm FREQT, but also provides useful mining results for analyzing the web structure.

关 键 词: 使用挖掘 访问模式 日志 活跃用户 频繁子树

领  域: [自动化与计算机技术] [自动化与计算机技术]


作者 汪志云
作者 余少华
作者 蔡胜
作者 何秀英
作者 钱佳


机构 珠海城市职业技术学院
机构 华南师范大学教育科学学院
机构 中山大学
机构 佛山科学技术学院
机构 广东技术师范学院


作者 李文姬
作者 邵慧君
作者 杜松华
作者 周国林
作者 邢弘昊