导 师: 夏培肃;张祥
学科专业: H1201
授予学位: 博士
作 者: ;
机构地区: 中国科学院计算技术研究所
摘 要: 该文对汉英双语语料库对齐工作进行了详尽的考察和研究,取得了以下成果:1、针对英语句子边界的歧义,该文提出了一种基于规则、错误驱动的英语句子边界辨识规则学习算法;2、双语语料库自动段落对齐在以往的许多研究中没有受到应有的重视,该文阐述了双语语料库段落对齐的重要性和必要性;3、在汉英句子对齐中,提出了一种基于综合信息的汉英句子对齐方法,既避免了长度方法的信息的不足,又避免过多词对进行匹配的复杂计算;4、在汉英词汇对齐过程中,该文采用位置变形距离进行冲突和消解.在此基础上,该文提出引入部分匹配规则以及多元匹配等等方法进行词汇对匹配的扩充.对于未匹配的词汇对,该文还提出一种基于翻译共现概率的词汇对齐方法;5、该文将以上多个过程结合在一起,给出了一个汉英双语语料库对齐的完整的实现.
分 类 号: [TP392]
领 域: [自动化与计算机技术] [自动化与计算机技术]