机构地区: 华南师范大学计算机学院
出 处: 《计算机系统应用》 2011年第12期60-63,共4页
摘 要: 根据拉丁维文的特点,分析了拉丁维文常见的拼写错误类型,提出了一种将最小编辑距离、基于有向图模型的词语切分和trigram语言模型融合的方法,实现了基于上下文的拉丁维文的自动拼写校对系统,从而大大提高了拉丁维文的校对准确率。在新疆大学提供的维文语料库的测试中,拉丁维文的校对准确率达到了90.1%。 According to the characteristics of Latin-Uighur, this paper analyzed the common spelling error types of Latin-Uighur, and then proposed a method which merged the minimum edit distance, directed graph model based lexical segmentation, trigram language model together. Finally, we implemented the automatically spelling check system of Latin-Uighur based on context. It has increased the accuracy of Latin-Uighur spelling check largely. The experiment on the Uighur corpus provided by Xinjiang University reaches an accuracy of 90.1%.
关 键 词: 拉丁维文 最小编辑距离 有向图模型 词语切分 语言模型 上下文 拼写校对
领 域: [自动化与计算机技术] [自动化与计算机技术]