帮助 本站公告
您现在所在的位置:网站首页 > 知识中心 > 文献详情
文献详细Journal detailed

正则表达式在Web信息抽取中的应用
Regular expression and its applications to web information extraction

作  者: ; ; ;

机构地区: 北京信息科技大学计算机学院

出  处: 《北京信息科技大学学报(自然科学版)》 2011年第6期86-89,共4页

摘  要: 针对基于HTML结构的信息抽取方法,提出了正则表达式的处理方法。利用正则表达式的匹配、替换和提取等功能,重点讨论了正则表达式在Web信息抽取过程中的应用。正则表达式已成功的应用在数据搜集、页面优化、规则学习和信息抽取等整个Web信息抽取的过程中。 A processing approach of the regular expression is proposed in connection with information extraction methods based on HTML-structure.The applications of the regular expression in the process of web information extraction is discussed,by using the regular expression's functions of matching、replacing、extraction and so on.The regular expression is used successfully in the whole process of web information extraction,such as webpage collecting、webpage optimization、rule learning and information extraction.

关 键 词: 信息抽取 正则表达式 匹配 替换 提取

领  域: [自动化与计算机技术] [自动化与计算机技术]

相关作者

作者 黄讴
作者 詹佳佳
作者 张艺
作者 龙丽
作者 钟文辉

相关机构对象

机构 中山大学
机构 中山大学资讯管理学院
机构 华南师范大学经济与管理学院
机构 华南理工大学工商管理学院
机构 华南师范大学经济与管理学院信息管理系

相关领域作者

作者 李文姬
作者 邵慧君
作者 杜松华
作者 周国林
作者 邢弘昊