中文会议: 第三届学生计算语言学研讨会论文集
会议地点: 中国辽宁沈阳
出版方 : 中国中文信息学会
机构地区: 南京师范大学文学院
出 处: 《第三届学生计算语言学研讨会》
摘 要: 本文提出了面向中文陌生文本的人机交互式分词方法,在没有分词底表和训练语料等语言知识的条件下,由系统自动地发现未登录词,提交给用户进行增删,不断重复此过程,反复获取文本中的词语,最后进行最大匹配法分词。四个不同语料的实验显示,在没有人机交互的条件下,可以得到72%(F值)左右的分词精度。经过较少的人机交互,可以使分词F值提高12%以上。随着用户工作量的增加,系统还能够进一步提高分词效果。
关 键 词: 陌生文本 人机交互 自动分词 未登录词识别 中文信息处理
分 类 号: [TP391.1]
领 域: [自动化与计算机技术] [自动化与计算机技术]