摘要:数据挖掘与知识发现(data mining and knowledge discovery简称为kdd)就是从大量的、不完全的、有噪声的、...数据挖掘与知识发现(data mining and knowledge discovery简称为kdd)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘任务一般可以分为两类:描述和预测。其中,描述性挖掘任务主要把握数据库中数据的一般特性或者根据数据的相似性把数据分组;预测性挖掘任务在当前数据上进行推断,以进行预测。 关联规则挖掘是数据挖掘领域一个非常重要的技术,它由r.agrawal等人首先提出以解决事务数据库分析等问题。物质或对象之间普遍存在空间位置和时间序列之间关联。关联规则挖掘就是从大量数据中项集之间发现有趣的关联或相关,从而达到认识事物客观规律的技术方法。随着大量数据不停地收集与存储数据库中挖掘关联规则显得越来越重要。 本文在对已有的关联规则挖掘的经典算法进行分析,发现原有算法需要扫描多次数据库,而且必须先给定最小支持度,当最小支持度改变的时候,将会导致重新计算关联规则。因此针对搜索速度方面,本文给出基于分类搜索的快速关联规则算法,该算法通过对事务数据进行逻辑分类处理,直接产生满足最小支持度的候选集和频繁集,使数据库的搜索次数不随数据项集数的增大而增大,控制数据库的搜索次数最多为3次,并杜绝“假项”产生,极大地提高了算法的效率。在针对最小支持度的问题上,本文提出一种新算法。新的算法首先从抽样角度入手,创新的给出关联规则极值抽样理论。该理论预先估计出所有支持度为极值的项目集。然后,以所有极值项目集为样本,结合最小二乘支持向量机回归(leastsquares support vector machine,lssvr)算法,计算出所有项目集的支持度。同时针对事务集在线更新的问题,在lssvr算法的基础上结合增量学习和逆学习的算法,提出支持事务集在线更新的回归算法rio svr。在算法试验阶段,本文用新算法针对相应数据进行测试,并用关联规则的传统算法对同一批数据进行测试,试验结果表明:基于极值抽样的关联规则新算法可以较好实现关联规则项目集支持度的回归。显示全部
摘要:对于工作在复杂环境中的机器人,有效的场景图像处理能够使机器人获得良好的场景感知和理解能力,是其实现自...对于工作在复杂环境中的机器人,有效的场景图像处理能够使机器人获得良好的场景感知和理解能力,是其实现自主导航并自主探索环境的前提条件。由于场景图像的随机性、多样性、复杂性等特点,同时机器人可得到的视觉先验知识不稳定,且对复杂环境中多类物体的识别技术仍不成熟,因此如何设计有效的场景图像处理方法成为机器视觉领域具有挑战性的研究热点。支持向量机算法建立在严格的理论基础之上,在解决小样本、非线性和高维模式识别问题中表现出了许多特有的优势。近年来,支持向量机已被成功地应用于系统辨识、机器人控制、遥感图像处理、经济管理等研究领域。然而,现有的支持向量机应用研究忽视了一个重要问题,那就是如何将专家逻辑经验与支持向量机方法有效结合起来。在实际的工程应用中,我们通常对某些待分析的数据信号拥有一定的先验知识,对待处理的信息有着部分定性经验判断。因此,将专家经验知识与支持向量机方法有机结合起来,研究合适的模糊支持向量机模型,是支持向量机算法面向工程技术领域的一个亟待解决的重要问题。本文结合场景图像处理应用,研究了模糊支持向量机算法的一些相关问题。论文主要的工作及研究成果如下:1)提出了三论域的模糊支持向量回归模型,提高了传统SVR算法处理带不确定信息问题的能力。模型采用全新的第三论域用于引入有用的先验知识,将传统核函数和模糊隶属度函数融合到三论域模糊核中,利用三论域的模糊核函数实现对输入、输出和不确定信息的统一分析。三论域模糊目标函数的定义及其优化过程则为三论域模糊支持向量回归模型提供了完善的理论支持。实验结果表明:三论域模糊支持向量回归模型在处理场景图像去噪问题上具有较好的应用效果。2)研究了样本分布的不确定性对最小二乘支持向量回归算法的影响,同时考虑样本的局部相似性,提出了基于样本分布密度加权的模糊密度权最小二乘支持向量回归(Fuzzy Density Weighted Least Squares Support Vector Regression, FDW-LSSVR)场景图像去噪算法。该算法基于模糊逻辑系统对样本的模糊密度权进行了有效设计。根据输入样本、输出样本的分布密度模糊矩阵及模糊规则,对模糊密度权进行模糊推理,以得到给定样本的模糊密度权。实验结果表明:FDW-LSSVR场景图像去噪算法在客观评价和实时性方面都有较好的表现。3)在核函数中采用Type-2模糊集的设计准则,提出了系统化的区间Type-2模糊核支持向量机(Interval Type-2Fuzzy Kernel based Support Vector Machine, IT2FK-SVM)场景图像分类算法。首先,在场景图像中提取灰度特征图、边缘特征图和方向特征图,构建场景图像的分类特征向量。然后,基于概率模糊核的主成分分析方法对第一阶段所建立的较高维分类特征向量进行有效降维。最后通过区间Type-2模糊核的设计,提高模糊核的SVM分类算法的鲁棒性。实验结果表明:IT2FK-SVM场景图像分类算法在样本受噪声污染、不同视觉角度、不同光照条件等不确定条件下,可达到较高的分类精度。4)针对多源特征输入分类问题,提出了分组特征嵌套核支持向量机(Grouping Feature and Nesting Kernel based Support Vector Machine, GFNK-SVM)场景图像分割算法。该算法首先提取场景图像像素点的灰度特征,梯度特征和C1标准模型特征(Standard Model Feature, SMF),构成像素样本集。再基于聚类有效性的区间Type-2模糊C-means (Cluster Validity based Interval Type-2Fuzzy C-Means, CV-IT2FCM)聚类算法实现样本选择,利用Type-2模糊度量准则得到模糊的聚类边界,提高了聚类结果的鲁棒性和可靠性。最后基于嵌套核的SVM分类算法对像素点进行有效分类,实现对场景图像的分割。BSDS数据库和机器人场景图像数据库的实验结果表明:GFNK-SVM场景图像分割算法能够获得较好的分割结果。显示全部