文献详情 - Gdtheory理论粤军网|广东智库信息化平台

全部文献媒体文章报刊论文会议论文学位论文出版专著研究报告课题成果特色专题

高级检索

您现在所在的位置：网站首页 > 知识中心 > 文献详情

文献详细_{Journal detailed}

基于数据挖掘思想的网页正文抽取方法的研究

收藏

中文会议： 第三届学生计算语言学研讨会论文集

会议日期： 2006-08-15

会议地点： 沈阳

主办单位： 中国中文信息学会

作　　者： ; ; ;

机构地区： 哈尔滨工业大学计算机科学与技术学院

出　　处： 《第三届学术计算语言学研讨会》

摘　　要： 为了把自然语言处理技术有效的运用到网页文档中,本文提出了一种依靠数据挖掘思想,从中文新闻类网页中抽取正文内容的方法.该方法将网页源代码进行线性化重构,然后利用重构后的代码进行网页噪声的初步去除,再经过文本分类、聚类得到网页正文的脉络段落,最后通过吸收伪噪声段落生成网页正文.该方法克服了传统的网页内容抽取方法需要为网页结构建树的缺点,具有简单、快速、准确的特点,试验表明该方法的抽取准确率可以达到99％以上.

关键词： 网页正文抽取数据挖掘自然语言处理聚类网页噪声

分类号： [T]

领　　域： [一般工业技术]

相关作者

作者洪明: 作品数：1被引量：1; 供职机构：华南理工大学经济与贸易学院电子商务系; 发文主题：数据挖掘;聚类

作者邓华丽: 作品数：6被引量：4; 供职机构：广州番禺职业技术学院; 发文主题：地方财政收入;灰色预测;预测法;证券;质量技术监督;人寿保险;数据挖掘;评价指标;企业财务状况;企业信用评级;熵权法;模糊神经网络;多层感知器;精准营销;基于数据;公司内在价值;信用级别;信用状况;神经网络

作者黄伟武: 作品数：1被引量：0; 供职机构：中山大学数学与计算科学学院; 发文主题：数据挖掘;聚类分析;决策支持系统;课程设置;基于数据;关联规则

作者李沐阳: 作品数：1被引量：0; 供职机构：中山大学数学与计算科学学院; 发文主题：数据挖掘;聚类分析;决策支持系统;课程设置;基于数据;关联规则

作者江学锋: 作品数：1被引量：2; 供职机构：深圳职业技术学院电子与信息工程学院; 发文主题：数据挖掘;决策支持系统;基于数据

相关机构对象

机构华南理工大学: 作者数：19075; 发文主题：模型,甲烷,订单农业,协商模型,零售商,供应链管理,绩效关系,供应链协调,制造商,催化剂,知识创新,关系承诺,利益分配,变质性物品,企业,技术创新,虚拟企业,知识分享,供应链协调模型,订货量,石墨烯,研究生教育,可控提前期,时变需求,实证研究,价格折扣,管理创新,信息共享,运营绩效,战略管理,货栈,协整关系研究,滞后支付,创新绩效,库存路径问题,订购,报童模型,信息不对称,创新型企业,销售商,内向型,博弈,甲醇电氧化,创新管理,直接甲醇燃料电池,外向型,智慧城市,风险规避,生命周期,车辆路径问题,供应链协作,供应链,员工创新行为,协整检验,动态面板,共性技术,德行领导,

机构中山大学: 作者数：27151; 发文主题：电视节目,用户,实证研究,家居,硬件,视域,异构,权利,分布式存储,蓝牙,启迪,从严治党,音乐门铃,领导干部,加密方法,中间件,党内权力,数字电视,权力监督,制度反腐,实体化,数字家庭,民主监督,社会主义国家执政党,马克思主义,监控系统,视频图像,中间件系统,数据传输方法,毛泽东,中国特色社会主义,风险评估,中国共产党,邓小平,素质教育,青年农民工,嵌入式,

机构暨南大学: 作者数：20971; 发文主题：行政手段,比较文学,法人资格,东亚货币合作,世界华文文学,三民主义,追寻,国际移民,双方当事人,文艺理论,法律地位,多角化经营战略,区域经济合作,经济法学,孙中山,国家所有权,母语教育,章程,网络,海外华文教育,横向经济联合,产权关系,专利法,文学传统,华裔美国文学,致辞,马来西亚华文教育,整体观,监事会,国有资产所有权,华族,全过程,汉语文学,冷战后,法律调整,全球语境,统战工作,海外华文文学研究,华文教育,辛亥革命时期,结构性权力,华人社会,海外华文文学,他者,文本阅读,涉外经济法规,粤港澳,经济法制,东南亚华人,新移民文学,人口比例,经济联合体,中国文学,企业集团,跨文化,社会参与,法制管理,文学概论,全球化语境,文艺学研究,

机构华南师范大学: 作者数：20338; 发文主题：教师成长,宏观经济,社会主义实践,中国梦,二重性质,马克思主义经济学,人生哲学,有效教学,中国货币政策,教育科研,克鲁格曼,教育叙事研究,教育研究,政治经济学,人民内部矛盾,新自由主义,校本教研,人性,哲学发展,课程改革,老师,教育行动研究,卢卡奇,学校教育,动物精神,马克思哲学,凯恩斯主义,人类社会发展规律,西方经济学,因果,教学研究,社会主义市场经济,中国共产党,教师,实证研究,诺贝尔经济学奖,教育现象学,英美文学,埃尔斯特,实证检验,校本教学研究,中国化马克思主义,社会主义建设规律,唯物史观,经济政策,社会存在本体论,异化,日常教学,社会主义发展道路,叙事研究,早期西方马克思主义,教学理念,马克思主义,人民币国际化,历史唯物主义,萨金特,教育叙事,世界货币,本体论,

机构广东外语外贸大学: 作者数：8857; 发文主题：创业研究,法治,语言学,战略性技术,系统功能语法,行政体制改革,语言维度,词汇语法,部门行政职权,主语,语法,双语词典,私有财产权,行政行为,创业决策,企业动态能力,语态,下行,级差,网络营销,语言模式,企业,可持续发展,具体行政行为,公法保护,法律规制,创业者,绿色营销,行政权,文体学,电子商务,人际,行政诉讼,服务型政府,实证研究,行政法治,汉语,营销研究,行政法,司法审查,系统功能语言学,组织知识,行政主体,企业家决策,动态能力,文化,企业绩效,语篇,法治视野,语义,韩礼德,英汉大词典,绿色消费,风险感知,商务背景,廊桥遗梦,持续竞争优势,公共行政,行政相对人,

相关领域作者

作者许治: 作品数：3被引量：8; 供职机构：华南理工大学; 发文主题：珠三角;卷烟包装;科学基金;高新技术产业发展;共同体

作者万良勇: 作品数：47被引量：396; 供职机构：华南理工大学; 发文主题：内部资本市场;实证研究;上市公司;企业;企业集团;机会主义;公司并购;公司治理;融资约束;社会网络;企业投资效率;网络位置;利益侵占;独立董事;论争;逻辑框架;金融生态环境;金融危机;金融危机冲击;会计信息管制

作者宋舒: 作品数：8被引量：7; 供职机构：茂名职业技术学院; 发文主题：思想政治理论课教学;高职院校思想政治理论课;正当防卫;实效性;思想政治理论课实践教学;思想政治素质;校园文化;教学有效性;经济法;化工专业;新校区校园;高职思想政治理论课;高职学生;高职院校;工学结合模式;岗位群;学校建筑

作者黄佑军: 作品数：39被引量：73; 供职机构：佛山职业技术学院; 发文主题：企业;会计师事务所;影响因素;制造业;实证研究;企业绩效;珠三角;资本结构;高职会计;股权结构;核心竞争力;核心竞争力评价;博弈分析;财务管理专业;层次分析法;应用型人才;营销创新;营销方案

作者王应密: 作品数：15被引量：93; 供职机构：华南理工大学; 发文主题：研究生教育;院校研究;全日制工程硕士;全日制硕士专业学位;研究生培养;应用型人才;政策文本;职业资格;认可度;实践课程;实践能力培养;数据仓储;数据库建设;硕士培养模式;硕士学位论文;硕士研究生;全日制;全日制工程硕士研究生

联系方式

电话：020-38800179

邮箱：gdtheory@126.com

地址：广州市天河区天河北路618号广东社会科学中心

邮编：510635

友情链接

扫一扫手机浏览

广东省社会科学院·广东省哲学社会科学数据库·广东智库版权所有 Copyright©2012 gdtheory.cn All Rights Reserved.

违法和不良信息举报中心举报邮箱：jubao@cqvip.com 粤ICP备10080020号-3