机构地区: 北京信息科技大学计算机学院
出 处: 《北京信息科技大学学报(自然科学版)》 2011年第6期86-89,共4页
摘 要: 针对基于HTML结构的信息抽取方法,提出了正则表达式的处理方法。利用正则表达式的匹配、替换和提取等功能,重点讨论了正则表达式在Web信息抽取过程中的应用。正则表达式已成功的应用在数据搜集、页面优化、规则学习和信息抽取等整个Web信息抽取的过程中。 A processing approach of the regular expression is proposed in connection with information extraction methods based on HTML-structure.The applications of the regular expression in the process of web information extraction is discussed,by using the regular expression's functions of matching、replacing、extraction and so on.The regular expression is used successfully in the whole process of web information extraction,such as webpage collecting、webpage optimization、rule learning and information extraction.
领 域: [自动化与计算机技术] [自动化与计算机技术]