帮助 本站公告
您现在所在的位置:网站首页 > 知识中心 > 文献详情
文献详细Journal detailed

粗糙集理论中的连续属性离散化方法研究

导  师: 吴涛

学科专业: G0104

授予学位: 硕士

作  者: ;

机构地区: 安徽大学

摘  要: 粗糙集理论是波兰数学家Z.Pawlak于1982年提出的一种数据分析理论,它善于从数据中获取知识,并能利用不确定,不完整的经验知识进行推理,能够有效地表达不确定或不精确的知识,而且其无需提供除问题所需处理的数据之外的任何先验信息,完全由数据本身出发来解决问题,这些优点极大的推动了粗糙集理论的发展。然而可惜的是粗糙集理论只能对离散的数据进行处理和分析,这大大限制了粗糙集应用的范围,也是粗糙集理论的瓶颈。在现实中,大部分数据库都含有连续数据,如果要使用粗糙集对数据进行分析处理,就必须对连续属性进行离散化,而且离散化的好坏也直接影响后面的分析和规则提取,这就对连续属性离散化提出了更高的要求。<br>  本文主要工作有:<br>  (1)首先叙述了离散化概念的来源,以及离散化在数据挖掘和知识发现中的必要性。然后介绍了粗糙集基本理论和粗糙集中的离散化问题。<br>  (2)从离散化问题出现到现在,人们提出了各种离散化方法,文中总结了离散化方法的分类、评价标准和发展现状等,并分析了几种代表性的离散化方法。<br>  (3)从模糊集理论角度出发,把离散化的选择断点问题看成是找等价关系R将论域U进行划分问题,从而将断点选择对应于寻找合适的等价关系。基于此,文中提出了一种基于模糊聚类的离散化方法,即构造各样本间的模糊相似矩阵,以截关系将其聚类,并在聚类过程中给出选择函数,由该函数在众多不同的聚类结果中选择最优结果,避免了主观因素的影响。<br>  (4)分析了在实验过程产生过度聚类的原因,并给出了改进算法,即首先由模糊聚类对样本进行初始聚类,得出类数,并对聚类结果进行平滑处理,找到被过度聚类的类,然后由K-means聚类法根据初始得到的类数,对被过度聚类的类重新聚类。对一些实验进行了比较,得到比较理想的结果。<br>  (5)将算法应用于安徽省经济分析中,由该算法离散后的决策表所得到的结果与现实基本吻合。

关 键 词: 粗糙集 连续属性 离散化 规则提取 数据挖掘

分 类 号: [TP311.131]

领  域: [自动化与计算机技术] [自动化与计算机技术]

相关作者

作者 庞泽华
作者 陈卫
作者 杨焕
作者 叶晨炫
作者 林泽玲

相关机构对象

机构 华南理工大学
机构 暨南大学
机构 中山大学
机构 广东工业大学管理学院
机构 暨南大学管理学院

相关领域作者

作者 李文姬
作者 邵慧君
作者 杜松华
作者 周国林
作者 邢弘昊