帮助 本站公告
您现在所在的位置:网站首页 > 知识中心 > 文献详情
文献详细Journal detailed

基于广义话题理论的话题句识别
Topic Clause Identification Based on Generalized Topic Theory

作  者: ; ;

机构地区: 北京工业大学计算机学院

出  处: 《中文信息学报》 2012年第5期114-119,128,共7页

摘  要: 汉语标点句句首话题缺失是机器翻译、信息抽取准确率不高的原因之一。该文从广义话题理论出发,根据汉语话题结构的特点,提出标点句的话题句识别研究方案,包括两个阶段性任务:单个标点句的话题句识别和序列标点句的话题句序列构建。识别出标点句的话题句也就找到了标点句句首缺失的话题。该文解决单个标点句的话题句识别任务,主要采用语义泛化和编辑距离两种手段。实验中开放测试的准确率比基线高出12.51个百分点。该结果说明,运用广义话题理论进行单个标点句的话题句识别可产生明显的效果。 Nowadays the Chinese machine translation and information extraction is still far from satisfactory. One important reason is that the topics are often omitted in the head of Chinese Punctuation Clause (abbreviated as PClause). Based on the Generalized Topic Theory, this paper proposes a novel method for topic clause identification from PClause based on the characteristic of topic strcture. The method consists of two tasks in practice: topic clause identification from a single PClause and topic clause construction for a series of PClauses. In the first task,semantic generalization and edit distance are applied in this paper, and the accuracy rate for open test is 12.51% higher than baseline. The result proves the effectiveness of the generalized topic theory in topic clause identification from a single PClause.

关 键 词: 标点句 广义话题 话题结构 话题句 话题句识别

领  域: [自动化与计算机技术] [自动化与计算机技术]

相关作者

作者 赵铁锌
作者 张瑞朋
作者 徐永式
作者 马新钦
作者 周录祥

相关机构对象

机构 中山大学
机构 中山大学人文科学学院中国语言文学系
机构 中山大学人文科学学院中文系
机构 华南师范大学
机构 广东石油化工学院

相关领域作者

作者 李文姬
作者 邵慧君
作者 杜松华
作者 周国林
作者 邢弘昊