文献详情 - Gdtheory理论粤军网|广东智库信息化平台

全部文献媒体文章报刊论文会议论文学位论文出版专著研究报告课题成果特色专题

高级检索

您现在所在的位置：网站首页 > 知识中心 > 文献详情

文献详细_{Journal detailed}

基于HTML标记用途分析的网页正文提取技术
Content extraction technique for web pages based on HTML-tags

下载全文在线阅读

收藏

作　　者： ; ; ; ; ;

机构地区： 重庆大学计算机学院

出　　处： 《计算机工程与设计》 2010年第24期5187-5191,共5页

摘　　要： 通过分析噪音数据特点和它所产生的影响,利用HTML的结构特征,提出了一种基于区域分块的HTML元素删除法,可用于网页正文的自动提取。实验结果表明,该方法能有效地得到大多数HTML网页的主体内容部分。针对HTML文件的解析方法不仅可以用于提取HTML文件的主体文本,也可以用于得到HTML文件中其它HTML元素的内容。 An HTML element deleting method for extracting automatically the contents of a web page based on a technique of region sub-block is proposed by analyzing the data noise characteristics and its impact on the content of a web page and by using the structure characteristics of HTML-tags.The experiments show that the new method can extract effectively the main part of the contents of a web page in most cases.The tag analyzing method for HTML documents proposed can be used not only to extract the text of an HTML file,but also to obtain the contents of other HTML elements.

关键词： 网页数据挖掘内容抽取噪音数据元素删除法

领　　域： [自动化与计算机技术] [自动化与计算机技术]

相关作者

作者邝丹妮: 作品数：3被引量：0; 供职机构：广州大学新闻与传播学院; 发文主题：服务提供者;视频广告;网络编辑;网页;媒体时代;经济视角;经济危机;刻板成见;互联网信息;新媒体;广告发展;广告实效;广告形象;本土广告业;本土化;播出;传者

作者卢珍: 作品数：2被引量：0; 供职机构：华南理工大学; 发文主题：因势利导;手机客户端;电子课堂;网页;威望;精心备课;课堂;高校教师;仪表

作者张福堂: 作品数：2被引量：1; 供职机构：广东女子职业技术学院经贸系; 发文主题：高职教育;特色教材;专业教学改革;网页;校本教材;教材建设;教程;高职会计电算化

作者陈新云: 作品数：1被引量：2; 供职机构：华南师范大学; 发文主题：网络课程;网页;动画;建构主义

作者庞惠莲: 作品数：1被引量：0; 供职机构：暨南大学; 发文主题：语用策略;时事;批评言语行为;网页;文化规范

相关机构对象

机构华南理工大学: 作者数：19075; 发文主题：模型,甲烷,订单农业,协商模型,零售商,供应链管理,绩效关系,供应链协调,制造商,催化剂,知识创新,关系承诺,利益分配,变质性物品,企业,技术创新,虚拟企业,知识分享,供应链协调模型,订货量,石墨烯,研究生教育,可控提前期,时变需求,实证研究,价格折扣,管理创新,信息共享,运营绩效,战略管理,货栈,协整关系研究,滞后支付,创新绩效,库存路径问题,订购,报童模型,信息不对称,创新型企业,销售商,内向型,博弈,甲醇电氧化,创新管理,直接甲醇燃料电池,外向型,智慧城市,风险规避,生命周期,车辆路径问题,供应链协作,供应链,员工创新行为,协整检验,动态面板,共性技术,德行领导,

机构暨南大学: 作者数：20971; 发文主题：行政手段,比较文学,法人资格,东亚货币合作,世界华文文学,三民主义,追寻,国际移民,双方当事人,文艺理论,法律地位,多角化经营战略,区域经济合作,经济法学,孙中山,国家所有权,母语教育,章程,网络,海外华文教育,横向经济联合,产权关系,专利法,文学传统,华裔美国文学,致辞,马来西亚华文教育,整体观,监事会,国有资产所有权,华族,全过程,汉语文学,冷战后,法律调整,全球语境,统战工作,海外华文文学研究,华文教育,辛亥革命时期,结构性权力,华人社会,海外华文文学,他者,文本阅读,涉外经济法规,粤港澳,经济法制,东南亚华人,新移民文学,人口比例,经济联合体,中国文学,企业集团,跨文化,社会参与,法制管理,文学概论,全球化语境,文艺学研究,

机构中山大学: 作者数：27151; 发文主题：电视节目,用户,实证研究,家居,硬件,视域,异构,权利,分布式存储,蓝牙,启迪,从严治党,音乐门铃,领导干部,加密方法,中间件,党内权力,数字电视,权力监督,制度反腐,实体化,数字家庭,民主监督,社会主义国家执政党,马克思主义,监控系统,视频图像,中间件系统,数据传输方法,毛泽东,中国特色社会主义,风险评估,中国共产党,邓小平,素质教育,青年农民工,嵌入式,

机构暨南大学管理学院: 作者数：2481; 发文主题：审计定价,公允价值,企业内部控制,网誉认证,会计准则,增值税转型,作业基础预算,影响因素,利益相关者,上市公司,资本市场,成本控制,全面预算管理,企业并购过程,财务会计,企业,平衡记分卡,审计目标,问卷调查,资产质量,知识经济,会计信息,实证研究,董事会特征,家族控股,会计,战略管理,债转股,信息披露,社会资本,内部财务制度,核心能力,企业内部财务,股权结构,企业管理,盈余管理,金融工具会计准则,企业财务制度,企业商誉,所有权,家族企业,内部控制制度,资产公允价值,中国会计,社会网络分析,企业集团,公允价值会计,中小投资者保护,未来经济利益,公司治理,免疫系统,负商誉,

机构华南师范大学: 作者数：20338; 发文主题：教师成长,宏观经济,社会主义实践,中国梦,二重性质,马克思主义经济学,人生哲学,有效教学,中国货币政策,教育科研,克鲁格曼,教育叙事研究,教育研究,政治经济学,人民内部矛盾,新自由主义,校本教研,人性,哲学发展,课程改革,老师,教育行动研究,卢卡奇,学校教育,动物精神,马克思哲学,凯恩斯主义,人类社会发展规律,西方经济学,因果,教学研究,社会主义市场经济,中国共产党,教师,实证研究,诺贝尔经济学奖,教育现象学,英美文学,埃尔斯特,实证检验,校本教学研究,中国化马克思主义,社会主义建设规律,唯物史观,经济政策,社会存在本体论,异化,日常教学,社会主义发展道路,叙事研究,早期西方马克思主义,教学理念,马克思主义,人民币国际化,历史唯物主义,萨金特,教育叙事,世界货币,本体论,

相关领域作者

作者李文姬: 作品数：3被引量：0; 供职机构：广州市社会科学院; 发文主题：云计算;中国社科院;中科院;社会信息服务;数据库;数字图书馆;网络;信息服务;信息资源

作者邵慧君: 作品数：9被引量：21; 供职机构：文学院; 发文主题：粤方言;粤语;综论;语音比较;语音数据库;语音特点;战国时期;第一人称代词;送气;同源;代词系统;清分;厦门话;小称;海话;儿尾;方言词汇;白话;变调;变音

作者杜松华: 作品数：2被引量：0; 供职机构：广东工业大学; 发文主题：社交媒体;农业现代化;企业;电子商务;可持续发展;共生共赢

作者周国林: 作品数：22被引量：54; 供职机构：广东金融学院; 发文主题：产业共性技术;上市公司;实证研究;组织承诺;董事会;动漫产业集群;产业集群;影响因素;语言学习;证券市场;证券市场风险;人力资源发展战略;社会主义新农村;生态系统;生态学思考;实证分析;市场壁垒;企业形象设计;区域经济合作;区域经济均衡

作者邢弘昊: 作品数：8被引量：0; 供职机构：广东省社会科学院; 发文主题：营销管理创新;在线广告;支付功能;视觉中心;数据库技术;通信设施;亲情服务;主流媒体;自我革新;最大多数人;网络媒体发展;网民规模;媒介竞争;媒体;民族性特征;目标受众;精神文化产品;新媒体;活跃度;技术门槛

联系方式

电话：020-38800179

邮箱：gdtheory@126.com

地址：广州市天河区天河北路618号广东社会科学中心

邮编：510635

友情链接

扫一扫手机浏览

广东省社会科学院·广东省哲学社会科学数据库·广东智库版权所有 Copyright©2012 gdtheory.cn All Rights Reserved.

违法和不良信息举报中心举报邮箱：jubao@cqvip.com 粤ICP备10080020号-3