导 师: 郭荷清
学科专业: H1203
授予学位: 博士
作 者: ;
机构地区: 华南理工大学
摘 要: 新一代语义web的目标是通过领域本体提供一个共享的和共同的领域理论实现智能的人机交互,计算机之间的互操作和计算机系统中的知识重用。语义web的发展和标准本体描述语言(owl)的出现,迫切需要以此为基础在各种领域中构建大量本体,从而推动本体的实际应用。然而目前大部分本体库的建立工作都是手工进行的,领域专家从指定的数据或文本中发现本体相当困难,本体正确性的有效性验证也必须通过专家的领域知识来完成,缺乏有效的管理和评价工具,这必然导致所建立的本体具有不一致性。使用自动的或者至少是半自动化的方法建立本体必然成为解决以上问题的主要方法。 本体的创建涉及领域专家建模、概念提取,概念分类等主要问题。本文对半自动化地从web的现有资源中提取领域本体的几个关键问题,主要包括多个不同格式的数据源的一致性处理方法、概念的语义相似性分析方法、基于语义的概念分类技术、从概念分类中提取领域本体的方法、领域本体的表示方法及基于领域本体的语义查询方法进行了深入的研究,其主要内容如下: 1.针对目前大部分本体建立以手工为主,过于依赖领域专家帮助等问题,本文充分挖掘web现有资源中蕴涵的知识,提出了从多个不同格式的数据源出发,半自动提取领域本体的模型。该模型阐明了利用web上现有资源,限制领域专家干预,以多个语义相关的数据源为领域,半自动地提取领域本体的总体思想。 2.针对目前表示和处理多个不同格式数据源的概念模型不支持数据模式内、模式间术语关系的提取和导出等问题,本文提出了面向多个不同格式数据源的统一概念模型.语义距离相似模型(sdsmodel),该模型精确表示各数据源的内涵信息及所表现概念相关的实例信息中隐含的知识,且具有可计算性。本文提出了不同数据源到sdsmodel的形式化转换规则,支持各种二元术语关系的直接提取和间接推导。 3.目前比较著名的语义相似性分析方法主要是语法驱动的或基于模式匹配的,通过语言上和结构上的匹配及聚类完成相似性分析,且面向的数据源比较单一化,需要大量的专家参与。本文提出了基于sdsmodel的语义相似性分析方法,该方法是语义驱动的,能处理多个不同的数据源格式,通过语言、结构、背景等多个比较特征,从词汇级相似性到基本语义相似性,最后提炼概念间的精确语义相似性。实验证明,本文提出的分析方法具有很高的稳定性、正确性和完全性。 4.针对目前大规模、高维数据集聚类分析效果不理想的现状,结合本文需要从web的海量数据中进行概念分类的实际情况,本文量化了概念在模式中的重要程度,以模式中最重要和最具代表性的概念为聚类对象,有效降低了模式聚类过程中的数据量,并取得了很好的分析结果。受dbscan和k-means算法的启发,本文提出了基于大数据集的多次高效聚类算法(meclhds),但与之不同的是mecimds不需要预先设置邻域半径、密度和聚类数,可将高维的数据处理转换到二维空间,并适合于任意形状的聚类,聚类效率和聚类质量均超过已有的经典聚类算法。 5.本文提出了从相关领域的概念聚类中提取领域本体的算法和本体修正算法,被提取的本体既表现了领域内概念间纵向继承的知识体系,也表现了领域内概念间横向联系的知识体系,同时,明确、清晰的语义有利于知识的共享。 6.为了使基于领域本体的语义查询具有更强的推理能力,本文使用描述逻辑alcqi形式化领域本体,借助alcqi的逻辑推理能力以及ontology概念间的语义能力,提高查询的查全率和查准率。本文采用monoid comprehension calculus作为基于领域本体查询转换的目标语言,充分利用其在嵌套和非嵌套collection型数据查询中的自然方法,定义了从用户查询到含半幺群概括演算的转换规则。为了减少转换过程中产生的临时变量和嵌套的层次,本文定义了语义的优化处理及查询重写规则。 本文的研究,深化了web中领域知识的建模、形式化表示和应用方面的理论和方法,对于领域本体的共享、重用和互操作具有重大的理论价值和实际应用价值。
关 键 词: 领域本体 语义距离相似模型 语义相似性分析方法 模式描述子 聚类分析 描述逻辑 语义查询 含半幺群概括演算
分 类 号: [TP311]
领 域: [自动化与计算机技术] [自动化与计算机技术]