帮助 本站公告
您现在所在的位置:网站首页 > 知识中心 > 文献详情
文献详细Journal detailed

基于数据挖掘思想的网页正文抽取方法的研究

中文会议: 第三届学生计算语言学研讨会论文集

会议日期: 2006-08-15

会议地点: 沈阳

主办单位: 中国中文信息学会

作  者: ; ; ;

机构地区: 哈尔滨工业大学计算机科学与技术学院

出  处: 《第三届学术计算语言学研讨会》

摘  要: 为了把自然语言处理技术有效的运用到网页文档中,本文提出了一种依靠数据挖掘思想,从中文新闻类网页中抽取正文内容的方法.该方法将网页源代码进行线性化重构,然后利用重构后的代码进行网页噪声的初步去除,再经过文本分类、聚类得到网页正文的脉络段落,最后通过吸收伪噪声段落生成网页正文.该方法克服了传统的网页内容抽取方法需要为网页结构建树的缺点,具有简单、快速、准确的特点,试验表明该方法的抽取准确率可以达到99%以上.

关 键 词: 网页正文抽取 数据挖掘 自然语言处理 聚类 网页噪声

分 类 号: [T]

领  域: [一般工业技术]

相关作者

作者 洪明
作者 邓华丽
作者 黄伟武
作者 李沐阳
作者 江学锋

相关机构对象

机构 华南理工大学
机构 中山大学
机构 暨南大学
机构 华南师范大学
机构 广东外语外贸大学

相关领域作者

作者 许治
作者 万良勇
作者 宋舒
作者 黄佑军
作者 王应密