帮助 本站公告
您现在所在的位置:网站首页 > 知识中心 > 文献详情
文献详细Journal detailed

Chinese Morphs Identification and Normalization

作  者: ; ; (沙灜);

机构地区: 中国科学院信息工程研究所

出  处: 《信息安全学报》 2016年第3期77-87,共11页

摘  要: 网络书写具有随意性、非正规性等特点。变体词就是网络语言作为一种不规范语言的显著特色,人们往往出于避免审查、表达情感、讽刺、娱乐等需求将相对严肃、规范、敏感的词用相对不规范、不敏感的词来代替,用来代替原来词的新词就叫做变体词(Morph)。变体词和其对应的原来的词(目标实体词)会分别在非规范文本和规范文本中共存,甚至变体词会渗透到规范文本中。变体词使行文更加生动活泼,相关事件、消息也传播得更加广泛。但是因为变体词通常是某种隐喻,已不再是其表面字词的意义了,从而使网络上文体与正式文本(如新闻等)具有巨大的差异。由此如何识别出这些变体词及其所对应的目标实体词对于下游的自然语言处理技术具有重要的意义。本文首先介绍了变体词的定义和特征,变体词的生成规律,总结了当前变体词的识别和规范化的主要技术进展和成果,最后是此领域发展方向的展望。 Internet language is a casual informal language. Entity morph is an important feature of Internet Language. In some situation, Internet users are keen on creating kinds of morphs, special kinds of fake alternative names to achieve some goals, express strong sentiment or humor, and avoid censorship. Entity morphs and their target entities respectively appear on informal and formal text. And in some situation, entity morphs even appear on formal text. Although using entity morphs has some advantages, but morphs are big barriers for natural language processing(NLP). So it is very important to research on morph identification and normalization. First, we will introduce the definition of morphs and the features of morphs; second, we will show the rules of generating morphs; third, the current progress of morph identification and normalization will be demonstrated. Finally, it is the prospect of this field.

关 键 词: 社交网络 变体词识别 变体词规范化 深度学习 神经网络 表示学习

领  域: [自动化与计算机技术] [自动化与计算机技术]


作者 孟显勇
作者 周晓冰
作者 刘建发
作者 邓小宁
作者 李金波


机构 暨南大学
机构 广东外语外贸大学
机构 华南理工大学
机构 华南师范大学
机构 华南理工大学工商管理学院


作者 李文姬
作者 邵慧君
作者 杜松华
作者 周国林
作者 邢弘昊