帮助 本站公告
您现在所在的位置:网站首页 > 知识中心 > 文献详情
文献详细Journal detailed

维汉机器翻译未登录词识别研究
Research on out-of-vocabulary words'recognition in Uyghur-Chinese machine translation

作  者: ; ; ; ;

机构地区: 中国科学院新疆理化技术研究所

出  处: 《计算机应用研究》 2013年第4期1112-1115,共4页

摘  要: 针对维汉统计机器翻译中未登录词较多的现象和维吾尔语语言资源匮乏这一现状,结合维吾尔语构词特征以及相应的字符串相似度算法,提出了一种基于字符串相似度的维汉机器翻译未登录词识别模型。该模型借助短语表和外部词典,与未翻译的维语词求相似度,取相似度最大短语对应的汉语翻译作为此未登录词的最终翻译。实验证明,与基于词干切分的未登录词识别方法相比,此模型较好地保留了维吾尔语词信息,提高了译文的质量。 Aimed at the phenomenon that there are so many out-of-vocabulary words in Uyghur-Chinese machine translation and the situation that the Uyghur language resources are very scarce,combined the features of Uyghur and string similarity algorithms,the paper presented an out-of-vocabulary word recognition model of Uyghur-Chinese machine translation which based on string similarity algorithms.With the help of phrase based model's phrase table,and the external dictionary,the model computed the maximum strings similarity between the out-of-vocabulary word and the Uyghur words' in phrase table and dictionary,got the translation corresponding to the Uyghur word.The experiments show that compared with the out-of-vocabulary words recognition method which based on word segmentation,this model is better retaining the words' information,and also improves the quality of the translation.

关 键 词: 维汉机器翻译 短语表 字符串相似度算法 未登录词 词切分 编辑距离

领  域: [自动化与计算机技术] [自动化与计算机技术]

相关作者

作者 欧阳伟豪
作者 董基凤
作者 褚东伟
作者 杨菊
作者 邹红霆

相关机构对象

机构 广东外语外贸大学
机构 暨南大学
机构 华南农业大学外国语学院
机构 广州大学外国语学院
机构 中山大学人文科学学院中文系

相关领域作者

作者 李文姬
作者 邵慧君
作者 杜松华
作者 周国林
作者 邢弘昊