导 师: 郭玉彬;汤德佑
授予学位: 硕士
作 者: ;
机构地区: 华南农业大学
摘 要: 经过了二十多年的持续发展,校园网已成为承载教学、科研和生活的方方面面的基础性设施。随着移动互联网技术的快速发展,校园网近年也开始向无线校园网扩张。这一发展首先表现在上网设备激增,每位用户拥有智能手机、平板电脑、笔记本电脑、台式电脑等多个上网设备。其次,上网地点,除了原来的宿舍、实验室和办公室等传统固定地点,还包括教学楼、图书馆、学生活动中心、食堂、校园超市和体育馆等所有校园公共场所。数万用户、上万个有线无线接入设备、频繁的网络漫游、实名制网络认证、异常网络使用等,使得高校用户上网认证相关数据已成为具有数量大(Volume)、时效性高(Velocity)、种类来源多样化(Varity)、价值密度低(Value)的典型4V特征的大数据。对这些数据进行处理、分析挖掘的成果可应用于校园网维护、优化校园网配置、指导校园网规划和后期发展等方面,因此具有重要意义。 本文给出一种基于分布式全文检索的大数据存储与分析框架,对某高校的海量上网认证相关信息进行管理分析,挖掘用户上网行为模式,分析了网络用户线路故障、终端故障、异常认证登录、非法网络共享等上网行为。框架分为大数据构建、数据分析、数据展示三个模块。大数据构建模块实现了校园网上网认证、网络设备日志等源数据的抽取、清洗、转换和加载等功能,使用Elasticsearch集群对各类数据进行分片索引,形成校园网认证大数据,建立全文索引,提高数据查询效率。数据分析模块给出用户上网行为规则。根据用户上网行为规则将用户查询需求定义为查询规则,并给出查询规则的实现算法,实现了规则管理和数据查询分析功能。数据展示模块通过接口获取大数据的分析结果,并对分析结果以图表地图等方式�