文献详情 - Gdtheory理论粤军网|广东智库信息化平台

文献详细_{Journal detailed}

基于Heritrix的Web信息抽取
Web Information Extraction Based on Heritrix

下载全文在线阅读

收藏

作　　者： ; ;

出　　处： 《图书情报工作》 2009年第9期112-115,共4页

摘　　要： 针对现阶段Web信息抽取技术的不足,提出一种基于Heritrix的精确抽取方法,由三个分别独立的功能模块共同完成。与一般信息抽取不同,本方法注重于在精确抽取的前提下实现通用化,做到可以根据数据库表的字段来进行最小单位的信息抽取,并且较好地解决信息采集通用性和准确性之间的矛盾。 This paper introduces a method of accurate information extraction based on Heritrix according to the shortage of Web information extraction technology. The system is composed of three respective module. Different from usual way of information extraction, the method is focus on precision as well as generality. It can extract the minimum unit of information according to the field of table in database.

关键词： 信息抽取数据采集

领　　域： [文化科学]

相关机构对象

机构中山大学: 作者数：27151; 发文主题：电视节目,用户,实证研究,家居,硬件,视域,异构,权利,分布式存储,蓝牙,启迪,从严治党,音乐门铃,领导干部,加密方法,中间件,党内权力,数字电视,权力监督,制度反腐,实体化,数字家庭,民主监督,社会主义国家执政党,马克思主义,监控系统,视频图像,中间件系统,数据传输方法,毛泽东,中国特色社会主义,风险评估,中国共产党,邓小平,素质教育,青年农民工,嵌入式,

机构中山大学资讯管理学院: 作者数：446; 发文主题：残障人士,信息系统管理,英国议会,档案公共服务,档案开放利用,图书馆学,图书馆,公民权利,灾难,公共,图书馆史,声明,档案公布,档案法规,档案服务工作,档案利用,硕士教育,灾区重建,中国图书馆史,导航,档案鉴定,数字化档案信息,社会角色,知识产权,档案学专业,档案学教育,英文文献,再设计,国际图联,档案利用权,考释,程序规制,资产性,石刻拓片,用户服务,档案开放,图书馆协会,档案,档案利用服务,公民隐私权保护,知识自由政策,权利行使,访谈录,知识自由,档案学,书目控制,知识管理,奖项,专业硕士,释文,现行文件服务,图书馆权利,真人,学术论文,图书馆集成系统,

机构华南师范大学经济与管理学院: 作者数：2327; 发文主题：支持向量机,公司成长性,模型,养老基金,经济发展,神经网络,工资体系,文献计量分析,公平,图书馆,有限状态图,财务杠杆,路向,自由现金流,上市公司,内部资本市场,第一大股东,劳动关系,股利政策,双重代理关系,开源软件,投资者保护,股权制衡,社会保障,知识图谱,企业,资本结构,数字图书馆建设,债务期限结构,经济合作,供应商融资,市场运行效率,规模经济,支持向量机分类,就业结构,文本分类,数字图书馆,实证分析,跨国经营,经济定位,聚类分析,数据挖掘,云计算,股权结构,可视化分析,集中度,集团内部资本,大样本,证券指数,数据挖掘研究,劳动力市场,企业成长性,现金持有量,社会和谐,公司治理,政治市场,经济结构,

机构华南理工大学工商管理学院: 作者数：3266; 发文主题：统计量,随机前沿模型,农村劳动力迁移,随机前沿分析,管理层激励,实证研究,公司绩效,经济增长,抑价,产权性质,知识溢出效应,企业业绩,融资约束,实证分析,融资困境,商业银行,模拟,企业税负,知识外溢,中小企业,增长极,上市公司,融资决策,空间计量模型,并购绩效,企业研发投入,有效性,外商直接投资,成本控制,收敛,投资者法律保护,股权性质,农村劳动力,方法,企业,技术创新,认股权证,国有企业,技术并购,资本结构,股权激励,面板数据,政府干预,指标体系,公司治理,并购,

机构华南师范大学经济与管理学院信息管理系: 作者数：77; 发文主题：图书编目,学科专业化,书面语言,前科学,教育改革,经济增长,书目索引,科技综合实力,图书馆学,私家藏书,图书馆学刊,学科建设,专业教育,情报学,专题索引,社会,十一届三中全会,元音,文化积累,十三经,图书馆工作人员,经济支撑,释义,语音,信息活动,元数据,索引,提要,图书馆联盟,学科定位,图书资料,专业课程,图书情报学,图书馆协会,角色定位,信息管理学,德尔菲法,学科馆员制度,教育特色,产业结构,目录学,图书情报教育,情报信息,索引工作,管理活动,信息资源管理,网络出版管理,图书馆学教育,图书馆业务,职业分工,经济基础,图书资料工作,用户研究,信息管理专业,中西,信息管理,目录学思想,九五计划,

基于Heritrix的Web信息抽取
Web Information Extraction Based on Heritrix

参考文献更多+

二级参考文献更多+

引证文献更多+

二级引证文献更多+

同被引文献更多+

耦合作品文献更多+

相关文献更多+

相关作者

相关机构对象

相关领域作者

基于Heritrix的Web信息抽取 Web Information Extraction Based on Heritrix

参考文献 更多+

二级参考文献 更多+

引证文献 更多+

二级引证文献 更多+

同被引文献 更多+

耦合作品文献 更多+

相关文献 更多+

相关作者

相关机构对象

相关领域作者

基于Heritrix的Web信息抽取
Web Information Extraction Based on Heritrix

参考文献更多+

二级参考文献更多+

引证文献更多+

二级引证文献更多+

同被引文献更多+

耦合作品文献更多+

相关文献更多+