中文会议: 第三届学生计算语言学研讨会论文集
会议日期: 2006-08-15
会议地点: 沈阳
主办单位: 中国中文信息学会
机构地区: 哈尔滨工业大学计算机科学与技术学院
出 处: 《第三届学术计算语言学研讨会》
摘 要: 为了把自然语言处理技术有效的运用到网页文档中,本文提出了一种依靠数据挖掘思想,从中文新闻类网页中抽取正文内容的方法.该方法将网页源代码进行线性化重构,然后利用重构后的代码进行网页噪声的初步去除,再经过文本分类、聚类得到网页正文的脉络段落,最后通过吸收伪噪声段落生成网页正文.该方法克服了传统的网页内容抽取方法需要为网页结构建树的缺点,具有简单、快速、准确的特点,试验表明该方法的抽取准确率可以达到99%以上.
关 键 词: 网页正文抽取 数据挖掘 自然语言处理 聚类 网页噪声
分 类 号: [T]
领 域: [一般工业技术]