导 师: 吴涛
学科专业: G0104
授予学位: 硕士
作 者: ;
机构地区: 安徽大学
摘 要: 粗糙集理论是波兰数学家Z.Pawlak于1982年提出的一种数据分析理论,它善于从数据中获取知识,并能利用不确定,不完整的经验知识进行推理,能够有效地表达不确定或不精确的知识,而且其无需提供除问题所需处理的数据之外的任何先验信息,完全由数据本身出发来解决问题,这些优点极大的推动了粗糙集理论的发展。然而可惜的是粗糙集理论只能对离散的数据进行处理和分析,这大大限制了粗糙集应用的范围,也是粗糙集理论的瓶颈。在现实中,大部分数据库都含有连续数据,如果要使用粗糙集对数据进行分析处理,就必须对连续属性进行离散化,而且离散化的好坏也直接影响后面的分析和规则提取,这就对连续属性离散化提出了更高的要求。<br> 本文主要工作有:<br> (1)首先叙述了离散化概念的来源,以及离散化在数据挖掘和知识发现中的必要性。然后介绍了粗糙集基本理论和粗糙集中的离散化问题。<br> (2)从离散化问题出现到现在,人们提出了各种离散化方法,文中总结了离散化方法的分类、评价标准和发展现状等,并分析了几种代表性的离散化方法。<br> (3)从模糊集理论角度出发,把离散化的选择断点问题看成是找等价关系R将论域U进行划分问题,从而将断点选择对应于寻找合适的等价关系。基于此,文中提出了一种基于模糊聚类的离散化方法,即构造各样本间的模糊相似矩阵,以截关系将其聚类,并在聚类过程中给出选择函数,由该函数在众多不同的聚类结果中选择最优结果,避免了主观因素的影响。<br> (4)分析了在实验过程产生过度聚类的原因,并给出了改进算法,即首先由模糊聚类对样本进行初始聚类,得出类数,并对聚类结果进行平滑处理,找到被过度聚类的类,然后由K-means聚类法根据初始得到的类数,对被过度聚类的类重新聚类。对一些实验进行了比较,得到比较理想的结果。<br> (5)将算法应用于安徽省经济分析中,由该算法离散后的决策表所得到的结果与现实基本吻合。
分 类 号: [TP311.131]
领 域: [自动化与计算机技术] [自动化与计算机技术]