导 师: 邵峰晶
授予学位: 硕士
作 者: ;
机构地区: 青岛大学
摘 要: 随着遥感技术的发展,海洋数据爆炸式增长,利用计算机技术,尤其是数据挖掘技术分析数据已成为从海量数据中发掘有用信息的手段。作为海洋保护的重要课题之一,海岸线分类吸引了越来越多的研究者。如何从大规模海洋数据中找出海岸线的分类规则,成为亟待解决的问题。 为了提高关联规则算法处理海量数据时的效率,研究者提出了基于数组的关联规则算法和基于分区的关联规则算法。基于数组的关联规则算法将数据库中的数据存放到内存中的二维数组中,将后续对数据库的扫描转化为对内存中二维数组的扫描,此算法只需扫描一次数据库,提高了算法的效率,但是面对海量数据的关联规则挖掘,由于内存的限制,无法将数据库上的整个数据集放入内存中的二维数组中,使得挖掘无法进行,分区算法很好的解决了此问题,此算法扫描数据库三次,最终得到整个数据中的所有关联规则。但是面对海量的数据挖掘,三次扫描数据库严重影响了算法的效率。 为了协调内存限制和扫描次数两因素,本文改进了Apriori算法,并将其应用于海岸类型识别,主要工作包括: (1)提出了一种基于一次扫描的分区Apriori算法。随机抽取样本放入到各个分区,并采用基于数组的Apriori算法获取每个分区上的关联规则和关联规则的分区支持度,然后根据最小分区支持度得到整个数据集上的近似关联规则。实验结果验证了本文算法在处理海量数据方面的有效性。 (2)将基于一次扫描的分区Apriori算法应用于海岸类型识别。根据基于数组分区的关联规则算法,在基岩海岸、砂(砾)质海岸、淤泥质海岸和生物海岸等四种基本海岸类型的地物样本中挖掘出区分规则,并利用这些规则分离四种海岸类型。
领 域: [自动化与计算机技术] [自动化与计算机技术]