文献详情 - Gdtheory理论粤军网|广东智库信息化平台

全部文献媒体文章报刊论文会议论文学位论文出版专著研究报告课题成果特色专题

高级检索

您现在所在的位置：网站首页 > 知识中心 > 文献详情

文献详细_{Journal detailed}

网页垂直搜索中信息抽取系统的设计与实现

收藏

导　　师： 任江涛

学科专业： H1204

授予学位： 硕士

作　　者： ;

机构地区： 中山大学

摘　　要： 随着internet的高速发展，web的信息量越来越大，当前最流行的网页导航工具通用搜索引擎在信息采集、信息存储等方面面临着巨大的挑战。另外，由于通用搜索引擎只是对网页的文本建立分词索引，而面向的是几乎所有类型的用户，包罗万象的结果越来越难满足用户精确搜索的要求。于是，面向专业领域的垂直搜索引擎就成为搜索引擎一个新的发展方向。垂直搜索引擎与通用搜索引擎最大的区别就是前者对网页进行了页面净化、信息抽取、页面分类、数据挖掘等深度的加工。经过这些加工之后，它能为用户提供覆盖率和准确率都比较高的搜索结果。在垂直搜索引擎的构建过程中，从web的半结构化数据中抽取出结构化数据是其中最重要步骤之一，它为网页分类，数据挖掘等处理过程提供基础数据。本文通过一个实际项目——中国电信号码百事通垂直搜索引擎——提出如何在nutch开源框架基础上构建一个完整的垂直搜索引擎，并重点讨论本人参与的主要模块——信息抽取子系统的设计与实现。信息抽取子系统包括网页规范化、网页净化、结构化信息抽取、信息存储等模块。文中提出了采用分词技术对网页进行净化的新方法，在信息抽取过程中，设计实现了一种结合正则表达式和xpath技术的数据抽取方法。

关键词： 垂直搜索引擎信息抽取网页净化分词技术正则表达式技术

分类号： [G354.4]

领　　域： [文化科学]

相关作者

作者黄讴: 作品数：1被引量：0; 供职机构：中山大学; 发文主题：正则表达式;网页净化;信息抽取;分词技术;垂直搜索引擎

作者沈元怿: 作品数：1被引量：0; 供职机构：华南理工大学; 发文主题：数据挖掘;决策树算法;计算机信息检索;分词技术;文本挖掘

作者詹佳佳: 作品数：6被引量：18; 供职机构：中山大学; 发文主题：国外图书馆学;博士论文;博士学位论文;词聚类;情报领域;情报学;文摘;竞争情报;信息可视化;信息抽取;信息抽取系统;演进分析;博硕士论文;词频分析

作者张艺: 作品数：5被引量：14; 供职机构：华南理工大学工商管理学院; 发文主题：产学研合作;知识基础;企业竞争情报;科学知识图谱;信息抽取;信息融合;储能

作者龙丽: 作品数：5被引量：39; 供职机构：华南师范大学经济与管理学院; 发文主题：信息资源共享;纸本阅读;图书馆馆藏;网络阅读;利益平衡机制;信息抽取技术;信息自由;馆藏质量;信息抽取

相关机构对象

机构中山大学: 作者数：27151; 发文主题：电视节目,用户,实证研究,家居,硬件,视域,异构,权利,分布式存储,蓝牙,启迪,从严治党,音乐门铃,领导干部,加密方法,中间件,党内权力,数字电视,权力监督,制度反腐,实体化,数字家庭,民主监督,社会主义国家执政党,马克思主义,监控系统,视频图像,中间件系统,数据传输方法,毛泽东,中国特色社会主义,风险评估,中国共产党,邓小平,素质教育,青年农民工,嵌入式,

机构中山大学资讯管理学院: 作者数：446; 发文主题：残障人士,信息系统管理,英国议会,档案公共服务,档案开放利用,图书馆学,图书馆,公民权利,灾难,公共,图书馆史,声明,档案公布,档案法规,档案服务工作,档案利用,硕士教育,灾区重建,中国图书馆史,导航,档案鉴定,数字化档案信息,社会角色,知识产权,档案学专业,档案学教育,英文文献,再设计,国际图联,档案利用权,考释,程序规制,资产性,石刻拓片,用户服务,档案开放,图书馆协会,档案,档案利用服务,公民隐私权保护,知识自由政策,权利行使,访谈录,知识自由,档案学,书目控制,知识管理,奖项,专业硕士,释文,现行文件服务,图书馆权利,真人,学术论文,图书馆集成系统,

机构华南师范大学经济与管理学院: 作者数：2327; 发文主题：支持向量机,公司成长性,模型,养老基金,经济发展,神经网络,工资体系,文献计量分析,公平,图书馆,有限状态图,财务杠杆,路向,自由现金流,上市公司,内部资本市场,第一大股东,劳动关系,股利政策,双重代理关系,开源软件,投资者保护,股权制衡,社会保障,知识图谱,企业,资本结构,数字图书馆建设,债务期限结构,经济合作,供应商融资,市场运行效率,规模经济,支持向量机分类,就业结构,文本分类,数字图书馆,实证分析,跨国经营,经济定位,聚类分析,数据挖掘,云计算,股权结构,可视化分析,集中度,集团内部资本,大样本,证券指数,数据挖掘研究,劳动力市场,企业成长性,现金持有量,社会和谐,公司治理,政治市场,经济结构,

机构华南理工大学工商管理学院: 作者数：3266; 发文主题：统计量,随机前沿模型,农村劳动力迁移,随机前沿分析,管理层激励,实证研究,公司绩效,经济增长,抑价,产权性质,知识溢出效应,企业业绩,融资约束,实证分析,融资困境,商业银行,模拟,企业税负,知识外溢,中小企业,增长极,上市公司,融资决策,空间计量模型,并购绩效,企业研发投入,有效性,外商直接投资,成本控制,收敛,投资者法律保护,股权性质,农村劳动力,方法,企业,技术创新,认股权证,国有企业,技术并购,资本结构,股权激励,面板数据,政府干预,指标体系,公司治理,并购,

机构广东工程职业技术学院: 作者数：842; 发文主题：大学生心理健康,预算编制,奥运板块,大学建设,运动干预,职业体育,职教体系,日本高等教育,体育产业发展,中介服务,产学合作,体育教学,使用信息,联赛,日本高校,终身学习,银行制,上市公司,与国际接轨,大学评估,高职院校,资本市场,社交媒体,审议机制,职业篮球俱乐部,体育产业,高等教育评估,体育无形资产,院校,顶尖,教育,融资环境,竞技体育,职业篮球市场,优秀足球运动员,终身教育体系,印度高等教育,职业体育俱乐部,

相关领域作者

作者庞菊香: 作品数：2被引量：2; 供职机构：广东海洋大学寸金学院; 发文主题：太极拳;抗衰老;心理障碍;健身;羞怯;胆怯;医疗保健功能;艺术体操教学

作者康超: 作品数：2被引量：0; 供职机构：中山大学; 发文主题：运动员心理训练;中国传统哲学;快乐体育

作者廖燕萍: 作品数：3被引量：2; 供职机构：广东松山职业技术学院; 发文主题：语篇能力;阅读理解能力;大学英语词汇教学;视听说教学;综合英语课;教学现状;跨文化交际能力;教学策略;教学内容;高职英语专业

作者廖荆梅: 作品数：1被引量：0; 供职机构：华南师范大学; 发文主题：家校合作;初中生学习

作者张丽娟: 作品数：1被引量：1; 供职机构：中山大学; 发文主题：自主学习能力培养;学生英语;教学

联系方式

电话：020-38800179

邮箱：gdtheory@126.com

地址：广州市天河区天河北路618号广东社会科学中心

邮编：510635

友情链接

扫一扫手机浏览

广东省社会科学院·广东省哲学社会科学数据库·广东智库版权所有 Copyright©2012 gdtheory.cn All Rights Reserved.

违法和不良信息举报中心举报邮箱：jubao@cqvip.com 粤ICP备10080020号-3