导 师: 吴广潮
授予学位: 硕士
作 者: ();
机构地区: 华南理工大学
摘 要: 两实例的距离或相似性度量在数据挖掘和机器学习中扮演着重要的角色,其广泛地应用于分类、聚类、异常检测、特征选择和实例检索等机器学习算法中。对连续数据的度量已经很成熟了,而对离散数据的相似性度量还具有很大的研究意义。许多数据驱动的相似性度量方法是通过数据集获取属性值的分布情况,从频数、概率、信息熵等角度构造度量函数。考虑到带有类标签的离散数据的类信息对学习器的训练具有指导作用,本文将利用属性值的类条件概率构造相似性度量函数,并对其在无序和有序离散属性上分别讨论研究,主要研究内容如下:(1)提出基于条件概率的无序离散属性相似性度量。该度量方法利用属性值的类条件概率结合信息熵理论,以两实例对象的共同信息量与描述两者总信息量的比值作为其相似性。并将其应用到多个数据集中,实验结果显示在该度量方法下的学习器具有较低的错误率。(2)提出基于条件概率的有序离散属性相似性度量。针对属性值的序关系,该度量使得序关系相邻的值相似性越大;反之,序关系远隔的值的相似性越小。将其与(1)中提出的度量方法相结合,并应用到混有有序和无序离散属性的多个数据集中,实验结果表明其具有较好的性能。(3)将本文提出的度量方法应用到数据属性包含有序和无序的小额贷款用户申请资质数据集上,并与其他常用相似性度量在该数据下的实验测试结果进行比较。实验结果显示本文提出的新方法在各个性能评估指标上的表现较优,由此表明其具有一定的有效性。