导 师: 李小福
学科专业: G0102
授予学位: 硕士
作 者: ;
机构地区: 中山大学
摘 要: 网页裁剪工具是企业信息门户(enterpriseinformationportal,简称eip)中常用的信息资源获取工具,应用于企业信息门户(eip)建设中,具有价值很大的研究开发意义。目前,国外很多大公司,比如ibm、oracle等,都开发了portal产品,而且在portal产品中都附带网页裁剪工具。但是网页裁剪工具仍然存在着很多问题,其中一个比较大的问题就是使用该工具的文本裁剪方法容易产生html结构不完整的情形,造成裁剪得到的门户部件不能正确地运行。 本文的主要工作就是通过研究一个html修补器来解决上述html结构不完整的问题,主要工作及创新点如下: (1)综述企业信息门户eip以及国内外网页裁剪的情况,主要介绍了外国的大公司ibm和oracle的portal及其网页裁剪的情况; (2)总结html语言以及词法分析的理论性知识,在词法分析中重点介绍了正则表达式和有穷自动机; (3)提出了一个基于有穷自动机的html修补器的解决方案。该方案首先利用网上开源工具htmltidy对html网页进行预处理,使html代码规范化、标准化,然后根据正则表达式和有穷自动机对html代码进行词法分析,最后提出一个基于有穷自动机的三次扫描修补算法对html代码进行修补,从而使得待修补的html代码结构完整化。 本文的html修补器成功地应用在一个实际eip项目开发的网页裁剪工具中,并取得了良好的效果。但是该html修补器也存在一些不足之处,目前只能应用于文本裁剪,而不能应用于图像和动画裁剪,这也是将来需要进一步研究的工作。
关 键 词: 企业信息门户 网页裁剪 正则表达式 有穷自动机
分 类 号: [F270.7 TP393.4]