摘要:大数据背景下,变量之间的相关性挖掘日益重要,计算机存储能力的提升,使得对数据流挖掘成为可能。目前数据流...大数据背景下,变量之间的相关性挖掘日益重要,计算机存储能力的提升,使得对数据流挖掘成为可能。目前数据流相关性分析方法对数据流的非线性关系的测度不具有普遍性,影响了非线性相关关系测度的准确性;且相关关系检验方法存在计算方法复杂,不能快速、高效识别数据流之间的非线性相关性的问题。基于此,寻找一种适用于数据流非线性关系测度与检验的方法,同时兼顾数据流挖掘实时性要求,成为了目前数据流相关性测度与检验迫切需要解决的问题。本文就最大信息系数(Maximal Information Coefficient,MIC)方法应用于数据流相关关系测度与检验做研究,力图解决数据流非线性相关的测度与检验问题。本文研究内容包括:第一,对数据流概念进行界定,并将最大信息系数与其他相关性测度方法进行比较,在分析最大信息系数特点的基础上,研究了MIC在数据流相关关系测度与检验的适用性;第二,介绍了基于MIC的数据流非线性相关关系测度与检验方法体系,基于MIC的数据流相关关系测度方法可以准确测度数据流的非线性相关关系,而基于MIC的数据流非线性相关关系检验方法与常用的建模检验方法相比,根据检验统计量的值做判断,计算简单,可以快速高效地进行非线性相关关系检验;第三,通过模拟,验证了基于MIC的数据流非线性相关关系的测度及检验方法的有效性;第四,对沪深300指数、大数据100指数和巨潮100指数之间的相关关系进行实证研究。本文的主要结论:第一,将MIC应用到数据流相关关系测度中来,解决了数据流非线性相关关系测度问题;第二,根据最大信息系数的均等性特征,通过检验统计量来对时间序列的非线性相关关系进行检验,与传统建模方法相比,计算简单,可以快速给出判定结果,符合数据流在线挖掘的要求;第三,试验研究进一步表明,该方法在对股票市场行情数据之间的动态相关关系应用上,效果显著。更多还原显示全部