导 师: 杨国纬
学科专业: H1202
授予学位: 硕士
作 者: ;
机构地区: 电子科技大学
摘 要: 随着自然语言应用系统的进步,对自然语言处理的基础部分,自动分词分句的准确率的要求也越来越高。汉语自动分词分句的自动评判系统的研究已经成为一项亟待解决的紧迫课题。 虽然学术界不断有研究人员提出自动评判的部分机制,但仍存在很多不足之处。例如,大部分机制都仅仅支持部分词类或部分搭配的评判;评判的召回率和准确率偏低等。汉语自动分词分句的自动评判的研究总的来说还处在刚刚起步的阶段。从事这方面研究的人员还不是很多,公开发表的论文也比较少。 本文在目前汉语分词分句技术和各种评判机制的深入研究和分析的基础上,借鉴了人们在类似问题上的思考模式,选择以语义知识库为问题的突破口,利用汉语词与词之间详细而复杂的关系网络,试图找到一种度量方法以确定其是否搭配。本文通过对现今主流语义知识库的研究和分析,提出了以知网为支撑,以语义距离为骨架的新概念:搭配距离。 本文详细介绍了搭配距离的概念定义和计算方法,并给出部分计算实例。从实例就能很明显的看到,搭配距离能很有效地度量词与词之间搭配的准确度。与其他分词、分句方法相结合,能产生相当好的结果。本文通过实验证明了这一点。从实验中还发现,搭配距离对简单歧义句和语法错误有一定判别能力。 最后指出了搭配距离在实验中体现出的一些不足之处以及下一步的主要工作方向。
关 键 词: 汉语分词分句 知网 搭配距离 歧义句 语法错误
分 类 号: [TP391.1]
领 域: [自动化与计算机技术] [自动化与计算机技术]