导 师: 刘文印; 谭清华
授予学位: 硕士
作 者: ();
机构地区: 广东工业大学
摘 要: 随着互联网的高速发展,上网冲浪、浏览网页成为人们日常生活中越来越重要的习惯。不法分子通过假冒知名网站的登录页面,诱骗用户进行登录操作,进而获取用户的隐私信息,这种行为被称为网络钓鱼攻击。近年来,网络钓鱼攻击的数量呈现出惊人的增长趋势,在攻击形式上出现了很多变化。网络钓鱼攻击具有欺骗性强、针对性高和时效性短等特点,这些特点使得没有接受过网络钓鱼知识科普的人很难人为的识别钓鱼网站。在钓鱼网站检测领域中,目前在工业界应用最为广泛的是黑白名单加规则的方法。但是,钓鱼网站一般存活时间很短,这使得维护一个数量庞大且具有时效性的黑白名单数据库成本很高;另外,人为设定的规则很容易被钓鱼者通过其他方法来绕开规则的检测。近年来,在学术界研究最广泛的方法是通过机器学习的方法来检测钓鱼网站。这类方法具有准确率高,鲁棒性强等优点。但是,要训练机器学习模型,需要大量的数据,目前来说,有关钓鱼网站的公开数据集非常稀少;另外,过于复杂的系统识别的速度比较慢,做不到实时检测。为了应对上述问题,本文提出了一种基于堆叠(stacking)模型的使用多源特征的钓鱼网站检测方法。该方法能实时检测钓鱼网站,并且能识别钓鱼网站的假冒目标。具体的研究工作如下:1、在数据集方面,本文收集了一个真实的数据集,包含了53103个网页的URL、HTML和页面截图的图片数据,命名为50K-IPD。2、在多源特征方面,主要使用网站的URL、HTML源码和浏览器渲染后的页面截图三种来源特征;其中,URL和HTML的特征都是轻量级的且不依赖任何第三方提供的服务,这使得开发实时的钓鱼网站检测系统成为可能。3、在模型方面,设计了一种堆叠模型,改模型结合了GBDT、XGBoost和LightGBM三种机器学习算法,且具有多层的结构,使得不同算法之间能够形成优势互补,提高钓鱼网站检测系统的性能。该模型在50K-IPD数据集上达到了准确率98.6%、漏报率1.28%和误报率1.54%的性能表现。在与其他机器学习算法以及与同行提出的方法对比中,该模型都达到了最优。实验证明,本文提出的方法在钓鱼网站检测方面是可行的。4、更进一步的,在识别出钓鱼网站后,本文提出了识别钓鱼网站的假冒对象的方法。本文收集了一个包含9013个网页的页面截图数据集,命名为9K-PCD。根据钓鱼网页所假冒的对象不同划分为不同的类,共113个类,每个类有不少于10个的样本。在方法上,本文使用了深度卷积神经网络(CNN)来训练分类模型,最终在识别假冒对象上达到了准确率92.31%和F1值93.66%的性能表现。更多还原
关 键 词: 钓鱼网站检测 机器学习 堆叠模型 假冒对象识别 分类算法
分 类 号: [TP393.092;TP309]