文献详情 - Gdtheory理论粤军网|广东智库信息化平台

文献详细_{Journal detailed}

粗糙集理论中的连续属性离散化方法研究

收藏

导　　师： 吴涛

学科专业： G0104

授予学位： 硕士

作　　者： ;

机构地区： 安徽大学

摘　　要： 粗糙集理论是波兰数学家Z.Pawlak于1982年提出的一种数据分析理论,它善于从数据中获取知识,并能利用不确定,不完整的经验知识进行推理,能够有效地表达不确定或不精确的知识,而且其无需提供除问题所需处理的数据之外的任何先验信息,完全由数据本身出发来解决问题,这些优点极大的推动了粗糙集理论的发展。然而可惜的是粗糙集理论只能对离散的数据进行处理和分析,这大大限制了粗糙集应用的范围,也是粗糙集理论的瓶颈。在现实中,大部分数据库都含有连续数据,如果要使用粗糙集对数据进行分析处理,就必须对连续属性进行离散化,而且离散化的好坏也直接影响后面的分析和规则提取,这就对连续属性离散化提出了更高的要求。 　　本文主要工作有: 　　(1)首先叙述了离散化概念的来源,以及离散化在数据挖掘和知识发现中的必要性。然后介绍了粗糙集基本理论和粗糙集中的离散化问题。 　　(2)从离散化问题出现到现在,人们提出了各种离散化方法,文中总结了离散化方法的分类、评价标准和发展现状等,并分析了几种代表性的离散化方法。 　　(3)从模糊集理论角度出发,把离散化的选择断点问题看成是找等价关系R将论域U进行划分问题,从而将断点选择对应于寻找合适的等价关系。基于此,文中提出了一种基于模糊聚类的离散化方法,即构造各样本间的模糊相似矩阵,以截关系将其聚类,并在聚类过程中给出选择函数,由该函数在众多不同的聚类结果中选择最优结果,避免了主观因素的影响。 　　(4)分析了在实验过程产生过度聚类的原因,并给出了改进算法,即首先由模糊聚类对样本进行初始聚类,得出类数,并对聚类结果进行平滑处理,找到被过度聚类的类,然后由K-means聚类法根据初始得到的类数,对被过度聚类的类重新聚类。对一些实验进行了比较,得到比较理想的结果。 　　(5)将算法应用于安徽省经济分析中,由该算法离散后的决策表所得到的结果与现实基本吻合。

关键词： 粗糙集连续属性离散化规则提取数据挖掘

分类号： [TP311.131]

领　　域： [自动化与计算机技术] [自动化与计算机技术]

粗糙集理论中的连续属性离散化方法研究

参考文献更多+

二级参考文献更多+

引证文献更多+

二级引证文献更多+

同被引文献更多+

耦合作品文献更多+

相关文献更多+

相关作者

相关机构对象

相关领域作者

粗糙集理论中的连续属性离散化方法研究

参考文献 更多+

二级参考文献 更多+

引证文献 更多+

二级引证文献 更多+

同被引文献 更多+

耦合作品文献 更多+

相关文献 更多+

相关作者

相关机构对象

相关领域作者

参考文献更多+

二级参考文献更多+

引证文献更多+

二级引证文献更多+

同被引文献更多+

耦合作品文献更多+

相关文献更多+