帮助 本站公告
您现在所在的位置:网站首页 > 知识中心 > 文献详情
文献详细Journal detailed

基于Heritrix的信息获取系统的研究及实现

导  师: 常会友

授予学位: 硕士

作  者: ;

机构地区: 中山大学

摘  要: 随着互联网的普及与发展,信息在社会中传播的速度和广度都得到全所未有的扩充。如何发现网络舆情热点,制止网络谣言传播,快速做出舆情应对措施,成为舆情相关方迫切面临的一个难题。本文关注的舆情监控系统依托“十二五”科技支撑项目,立足于农产品范畴,围绕舆情报告、情感正负面分析等系统功能,旨在开发出一款食品安全监管方面的舆情监控系统。系统的开发应用不但会使舆情监控的工作量大幅减少,而且可以提高应对网络舆情的处置速度。信息获取系统作为舆情监控的重要子系统之一,围绕信息获取的功能点,对该子系统进行了研究及实现。本文的主要工作和贡献如下:首先是以Heritrix为基础,为舆情监控平台定制开发了自有的信息抓取方式,扩充了原有Heritrix处理链。扩充处理链包括灵活度更高的域名过滤,增加ContentType类型过滤,关键词过滤等三种过滤方式,提高了信息抓取的效率。此外在信息抓取的环节提出了节点网页的概念,并借助该概念和Heritrix的定点恢复功能实现信息获取系统的增量抓取功能。此外,本文整合了实验室原有的微博信息抓取功能,从而实现了微博、新闻以及论坛三者数据源的信息抓取。在信息抓取的基础上,本文采用XML文件模板抽取的方式对新闻文本和论坛文本进行了非结构化信息抽取,并对抽取的信息进行了基本的分类整理,为下一步的文本分析提供数据材料。最后是在实现系统功能的同时进行了大量的抓取实验,对各个过滤链和增量抓取等核心功能模块经行了对比测试,并分析了实验数据。本文的信息获取系统从网络舆情的角度协助食品的安全生产监督工作,相对来说是一种比较创新的监管方式。此外本文提出了节点网页的概念,并借助信息抽取的结果反馈给信息抓取过程

关 键 词: 舆情监控 信息获取 信息抽取 非结构化信息

领  域: [文化科学—传播学] [自动化与计算机技术—计算机软件与理论] [自动化与计算机技术—计算机科学与技术]

相关作者

作者 钟文辉
作者 程薇
作者 詹佳佳
作者 黄讴
作者 张艺

相关机构对象

机构 中山大学
机构 华南师范大学经济与管理学院
机构 广东科技学院
机构 中山大学资讯管理学院
机构 仲恺农业工程学院

相关领域作者

作者 孙海峰
作者 黄春平
作者 王璐
作者 于晓峰
作者 王婷