中文会议: 第六届全国信息检索学术会议论文集
会议日期: 2010-08-12
会议地点: 中国黑龙江牡丹江
出版方 : 中国中文信息学会信息检索与内容安全专业委员会
机构地区: 吉林大学计算机科学与技术学院
出 处: 《第六届全国信息检索学术会议》
摘 要: Deep Web入口发现是Deep Web数据集成的关键问题之一,本文应用主题爬行技术和本体技术,构造网页分类器(WPC)、表单结构分类器(FSC)和表单内容分类器(FCC),实现特定领域Deep Web入口表单的自动发现。网页分类器在爬行过程中,借助主题爬行技术和本体技术进行领域内网页主题爬行;表单结构分类器对领域相关网页进行解析,并应用决策树算法判断其网页中是否存在查询接口表单,去除非搜索表单
领 域: [自动化与计算机技术] [自动化与计算机技术]