文献详情 - Gdtheory理论粤军网|广东智库信息化平台

全部文献媒体文章报刊论文会议论文学位论文出版专著研究报告课题成果特色专题

高级检索

您现在所在的位置：网站首页 > 知识中心 > 文献详情

文献详细_{Journal detailed}

面向分层结构的网页分类与抓取
Categorization and Extraction of Web Pages Based on Hierarchy

下载全文在线阅读

收藏

作　　者： ; ; ;

机构地区： 华南理工大学软件学院

出　　处： 《计算机工程与科学》 2012年第11期1-6,共6页

摘　　要： 传统网络爬虫为基于关键字检索的通用搜索引擎服务,无法抓取网页类别信息,给文本聚类和话题检测带来计算效率和准确度问题。本文提出基于站点分层结构的网页分类与抽取,通过构建虚拟站点层次分类树并抽取真实站点分层结构,设计并实现了面向分层结构的网页抓取;对于无分类信息的站点,给出了基于标题的网页分类技术,包括领域知识库构建和基于《知网》的词语语义相似度计算。实验结果表明,该方法具有良好的分类效果。 Traditional web crawler provides services based on searching keywords. It cannot extract the categorization information of web pages, thus resulting in efficiency and accuracy problems on text clustering and topic detection. To solve this problem, a method of categorization and extraction of web pages based on hierarchy is proposed in this paper. By building a virtual hierarchy categorization tree and extracting the hierarchies of real web sites, a web page is categorized when it is crawled. For sites which have no categorization information, a page title based categorization algorithm is presented, including building up the domain knowledge base and calculating the semantic similarity based on Hownet. The experimental results demonstrate that this method achieves preferable effects.

关键词： 网络爬虫网页分类领域知识库知网

领　　域： [自动化与计算机技术] [自动化与计算机技术]

相关作者

作者聂铁良: 作品数：1被引量：4; 供职机构：暨南大学; 发文主题：审计市场;集中度;规模化;分层结构

作者李美群: 作品数：3被引量：4; 供职机构：暨南大学; 发文主题：审计市场;集中度;规模化;分层结构;盈余管理;审计质量;行业专长

相关机构对象

机构暨南大学: 作者数：20971; 发文主题：行政手段,比较文学,法人资格,东亚货币合作,世界华文文学,三民主义,追寻,国际移民,双方当事人,文艺理论,法律地位,多角化经营战略,区域经济合作,经济法学,孙中山,国家所有权,母语教育,章程,网络,海外华文教育,横向经济联合,产权关系,专利法,文学传统,华裔美国文学,致辞,马来西亚华文教育,整体观,监事会,国有资产所有权,华族,全过程,汉语文学,冷战后,法律调整,全球语境,统战工作,海外华文文学研究,华文教育,辛亥革命时期,结构性权力,华人社会,海外华文文学,他者,文本阅读,涉外经济法规,粤港澳,经济法制,东南亚华人,新移民文学,人口比例,经济联合体,中国文学,企业集团,跨文化,社会参与,法制管理,文学概论,全球化语境,文艺学研究,

机构南方医科大学: 作者数：704; 发文主题：国民革命军,黄埔军校,政工,灾难,心理健康,生命意义感,缘由,影响因素,幸福感,社会支持,孙中山,国民党军队,东江纵队,蒋介石,预警指标,中介作用,中国国民党,人格特征,中介效应,大学生,国共关系,张之洞,中国共产党,创伤后应激障碍症状,抗日战争,苏俄,大学生心理障碍,心理应激,用药,人格,伤害性,症状困扰,心理韧性,睡眠质量,自杀风险,心理治疗,创伤后应激障碍,孕妇,政治工作,心理咨询,支队,妊娠,来访者,军校医学生,安全感,日常生活活动,大众媒体,信度,廖仲恺,国民党,社会心理学,中国大学生,自杀报道,政治教育,共产党,大学生生活,

机构暨南大学管理学院: 作者数：2481; 发文主题：审计定价,公允价值,企业内部控制,网誉认证,会计准则,增值税转型,作业基础预算,影响因素,利益相关者,上市公司,资本市场,成本控制,全面预算管理,企业并购过程,财务会计,企业,平衡记分卡,审计目标,问卷调查,资产质量,知识经济,会计信息,实证研究,董事会特征,家族控股,会计,战略管理,债转股,信息披露,社会资本,内部财务制度,核心能力,企业内部财务,股权结构,企业管理,盈余管理,金融工具会计准则,企业财务制度,企业商誉,所有权,家族企业,内部控制制度,资产公允价值,中国会计,社会网络分析,企业集团,公允价值会计,中小投资者保护,未来经济利益,公司治理,免疫系统,负商誉,

相关领域作者

作者李文姬: 作品数：3被引量：0; 供职机构：广州市社会科学院; 发文主题：云计算;中国社科院;中科院;社会信息服务;数据库;数字图书馆;网络;信息服务;信息资源

作者邵慧君: 作品数：9被引量：21; 供职机构：文学院; 发文主题：粤方言;粤语;综论;语音比较;语音数据库;语音特点;战国时期;第一人称代词;送气;同源;代词系统;清分;厦门话;小称;海话;儿尾;方言词汇;白话;变调;变音

作者杜松华: 作品数：2被引量：0; 供职机构：广东工业大学; 发文主题：社交媒体;农业现代化;企业;电子商务;可持续发展;共生共赢

作者周国林: 作品数：22被引量：54; 供职机构：广东金融学院; 发文主题：产业共性技术;上市公司;实证研究;组织承诺;董事会;动漫产业集群;产业集群;影响因素;语言学习;证券市场;证券市场风险;人力资源发展战略;社会主义新农村;生态系统;生态学思考;实证分析;市场壁垒;企业形象设计;区域经济合作;区域经济均衡

作者邢弘昊: 作品数：8被引量：0; 供职机构：广东省社会科学院; 发文主题：营销管理创新;在线广告;支付功能;视觉中心;数据库技术;通信设施;亲情服务;主流媒体;自我革新;最大多数人;网络媒体发展;网民规模;媒介竞争;媒体;民族性特征;目标受众;精神文化产品;新媒体;活跃度;技术门槛

联系方式

电话：020-38800179

邮箱：gdtheory@126.com

地址：广州市天河区天河北路618号广东社会科学中心

邮编：510635

友情链接

扫一扫手机浏览

广东省社会科学院·广东省哲学社会科学数据库·广东智库版权所有 Copyright©2012 gdtheory.cn All Rights Reserved.

违法和不良信息举报中心举报邮箱：jubao@cqvip.com 粤ICP备10080020号-3