导 师: 张小艳
学科专业: H1203
授予学位: 硕士
作 者: ;
机构地区: 西安科技大学
摘 要: 计算机与通讯技术的飞速发展迫切需要有效的分类方法对信息资源进行分类,而传统的分类方法又存在着费时费力等缺点,这就使得文本的自动分类越来越受人们的重视,支持向量机和文本分类问题有着良好的结合点,从而使得基于支持向量机的文本分类成为这个领域的研究热点。支持向量机是一种基于结构风险最小化准则的分类学习机模型,它的应用十分广泛。虽然支持向量机算法的性能在许多实际问题的应用中得到了验证,但是还存在着一些需要改进的地方,如:训练算法速度慢、测试阶段运算量大等。 本文在研究文本分类和支持向量机理论的基础上,针对支持向量机在样本数目较多时其训练速度较慢的问题,用聚类方法处理支持向量机的训练样本,减少训练样本个数,提高支持向量机的训练速度;同时,针对支持向量机在样本维数较高时其训练和分类速度较慢的问题,用哈尔小波变换对训练样本和分类样本向量进行降维处理,降低支持向量机在模型训练和分类测试阶段的运算量,有效提高训练和分类的时间效率。本文在分析实验数据的基础上对上述两种方法的应用效果做了总结。聚类分析和小波变换都是对支持向量机用向量表示的样本进行加工处理。从应用的出发点来看,二者的目的都是为了提高训练和分类的时间效率,不同之处在于聚类分析使用的策略是降低样本的数量,小波变换使用的策略则是降低向量的维数;从应用的效果来看,小波变换的效果要好于聚类分析,虽然二者都在一定程度上降低了训练和分类时间,但小波变换能够更好的保证分类的准确率。
分 类 号: [TP181 TP391.1]