帮助 本站公告
您现在所在的位置:网站首页 > 知识中心 > 文献详情
文献详细Journal detailed

汉英双语语料库自动对齐研究

导  师: 夏培肃;张祥

学科专业: 081201

授予学位: 博士

作  者: ;

机构地区: 中国科学院研究生院

摘  要: 自然语言处理是对自然语言的形、音、义等信息进行操作和加工的一门学科。当今社会,随着计算机的日益普及,信息化程度的日益提高,人类交流的日趋频繁,对自然语言理解技术的需求也越来越大。 自然语言处理包括两种基本的研究方法:理性主义研究方法和经验主义研究方法。根据它们在实际的自然语言处理中的不同表现,它们又通常可以称为基于规则的方法和基于语料库的方法。由于这两种方法之间可以取长补短,所以将这两者相结合成了当前自然语言研究的趋势之一。具体地,这种趋势表现为,许多研究开始着重于从大规模语料库中抽取语言知识的规律,然后利用这些规律来指导自然语言处理的过程。 根据所含语言种类的多少,语料库可以分为单语语料库和多语语料库。前者只含有单独的一种语言的文本,而后者却含有多种语言的对照互译文本。多语语料库中最典型的就是包含两种语言互译文本的双语语料库。由于双语语料库含有两种语言之间的互译对照信息,因此它对于这两种语言之间双语方面的自然语言处理具有极其重要的研究和应用价值。正因为如此,双语库的建立和加工便成了当前语料库技术中的重要研究课题。 双语语料库处理的关键技术之一是对齐,即在双语文本中找到互为翻译的源文和译文片段。对齐的单位包括篇章、段落、句子、短语、单词甚至字符等等,不同的自然语言应用要求做到不同单位的对齐。 汉语和英语作为世界上最具典型的两种不同语言,在自然语言处理的对象当中具有相当重要的地位。建立一个合适的汉英双语语料库,对于汉语和英语的双语方面的研究具有十分重要的意义。然而,迄今为止,针对汉英双语语料库对齐方面的研究却相对贫乏,这是本文的研究动机所在。 本文对汉英双语语料库对齐工作进行了详尽的考察和研究,取得了以下成果: 1、针对英语句子边界的歧义,本文提出了一种基于规则、错误驱动的英语句子边界辨识规则学习算法。通过学习算法的训练,可以从语料库中获取英语句子边界的辨识规则,避免了手工获取规则的大工作量和所得规则的不科学性和不一致性。 2、双语语料库自动段落对齐在以往的许多研究中没有受到应有重 Natural Language Processing /(NLP/) is a kind of science which deals with the morphology, pronunciation and sense of natural languages. Nowadays, along with the more and more widespread computers, our society becomes an information society and the communication between human beings becomes more and more frequent, all the society cries for the NLP technology. NLP includes two basic research methods: one is rationalism, the other is empiricism. They also can be called rule-based method and corpus-based method respectively when they are used in practice. Because each one's strong points can offset the other one's weakness, the two basic methods are usually combined in the present NLP researches. Formally, most present researches lay stress on the language knowledge extraction from large-scale corpus and then apply the knowledge rules to the NLP process. A corpus can be a monolingual corpus or a multilingual corpus according to the number of language it contains. The former only contains texts of one language while the latter contains more. One of the typical multilingual corpora is a bilingual corpus which contains mutual translation texts of two different kinds of languages. Because it contains translation information between two kinds of languages, the bilingual corpus can provide very valuable information for bilingual researches such as machine translation and bilingual lexicography. Thus, creating bilingual corpora becomes one of the most important topics in the NLP filed at present. The key technology to create bilingual corpora is alignment. The text alignment problem may be stated succinctly as follows: given two texts that are mutual translations, automatically calculate the correspondences between their respective segments. Concretely, this means identifying for each segment in one text the segment in the other text that is its translation. The nature of the segments determines the resolution of the alignment: sections, paragraphs, sentences, words, bytes, etc. Different NLP applications need different bilingual corpora aligned at different level. Chinese and English are two of the most typical languages in the world

关 键 词: 自然语言处理 语料库 双语语料库 对齐

分 类 号: [TP391.1]

领  域: [自动化与计算机技术] [自动化与计算机技术]

相关作者

作者 晏懋思
作者 王志军
作者 乔东枝
作者 卢炳卫

相关机构对象

机构 广东外语外贸大学
机构 中山大学资讯管理学院
机构 广东科技学院
机构 深圳大学外国语学院
机构 华南农业大学

相关领域作者

作者 李文姬
作者 邵慧君
作者 杜松华
作者 周国林
作者 邢弘昊