帮助 本站公告
您现在所在的位置:网站首页 > 知识中心 > 文献详情
文献详细Journal detailed

基于中文网页搜索日志的复杂命名实体识别研究

导  师: 王斌

学科专业: H1202

授予学位: 硕士

作  者: ;

机构地区: 中国科学院计算技术研究所

摘  要: 复杂命名实体指那些指代对象具体、字面特征不明显、与人们日常生活和休闲娱乐活动密切相关的实体名,比如电影名、餐馆名、大学名等等。复杂命名实体的识别不仅能够形成一种重要的数据资源,给互联网上的信息抽取提供基础,还有助于搜索引擎理解用户的查询意图,从而给出有针对性的、整合的搜索结果。 人们遇到未知信息已经习惯于用搜索引擎进行查询,这使网页搜索日志中不断积累新的复杂命名实体。网页搜索日志已经成为识别复杂命名实体的重要数据资源。 本文收集并整理了一亿三千多万条网页搜索的查询词,对其进行了整理和分析,并在此基础上完成了识别算法的设计和识别系统的实现。主要的工作有以下几点: 根据网页搜索日志中的复杂命名实体的分布和上下文特征,本文将中文网页搜索日志中的复杂命名实体识别问题转化为类似文本分类的问题,从而使文本分类、特征选择以及关联规则挖掘等现有技术得以应用。实验表明,结合特征选择技术和关联规则挖掘技术的识别算法,六个类别的平均P@500达到了77%,P@250更是达到了86%,相对于工作在英文日志上的同行的工作提高了4.9%。 针对这样一个受到很多因素影响的系统,本文设计并实现了大量的对比实验,进行了参数选择和各种算法的比较,得到了合适的TAGS数目、SEEDS数目等参数,验证了本文算法的有效性。 对部分日志进行了SESSION划分,在SESSION单位上实现了识别算法,以提高识别结果的覆盖率。同时手工标注了数万条查询来对覆盖率进行评价。实验表明,在SESSION单位上做命名实体识别对提高识别的覆盖率有一定的帮助。 实现了一个灵活、高效率、有进化能力的系统。该系统通过配置文件来设置各种参数和数据文件,使调整各种参数,增加和更换SEEDS文件、日志文件的操作非常方便。系统可以在数十分钟的时间内处理上亿条查询的日志,达到了实用的要求。更重要的是,系统可以不断记忆选取出的TAGS、复杂命名实体和噪音词,随着系统处理的日志量的增加,其识别效果会不断地得到改进。 关键词:复杂命名实体;网页搜索日志;命名实体识别;数据挖掘;信息检索

分 类 号: [TP3 G35]

领  域: [自动化与计算机技术] [文化科学]

相关作者

作者 郑敏

相关机构对象

机构 中山大学

相关领域作者

作者 李文姬
作者 邵慧君
作者 杜松华
作者 周国林
作者 邢弘昊