帮助 本站公告
您现在所在的位置:网站首页 > 知识中心 > 文献详情
文献详细Journal detailed

网页裁剪中html修补器的研究

导  师: 李小福

学科专业: G0102

授予学位: 硕士

作  者: ;

机构地区: 中山大学

摘  要: 网页裁剪工具是企业信息门户(enterpriseinformationportal,简称eip)中常用的信息资源获取工具,应用于企业信息门户(eip)建设中,具有价值很大的研究开发意义。目前,国外很多大公司,比如ibm、oracle等,都开发了portal产品,而且在portal产品中都附带网页裁剪工具。但是网页裁剪工具仍然存在着很多问题,其中一个比较大的问题就是使用该工具的文本裁剪方法容易产生html结构不完整的情形,造成裁剪得到的门户部件不能正确地运行。 本文的主要工作就是通过研究一个html修补器来解决上述html结构不完整的问题,主要工作及创新点如下: (1)综述企业信息门户eip以及国内外网页裁剪的情况,主要介绍了外国的大公司ibm和oracle的portal及其网页裁剪的情况; (2)总结html语言以及词法分析的理论性知识,在词法分析中重点介绍了正则表达式和有穷自动机; (3)提出了一个基于有穷自动机的html修补器的解决方案。该方案首先利用网上开源工具htmltidy对html网页进行预处理,使html代码规范化、标准化,然后根据正则表达式和有穷自动机对html代码进行词法分析,最后提出一个基于有穷自动机的三次扫描修补算法对html代码进行修补,从而使得待修补的html代码结构完整化。 本文的html修补器成功地应用在一个实际eip项目开发的网页裁剪工具中,并取得了良好的效果。但是该html修补器也存在一些不足之处,目前只能应用于文本裁剪,而不能应用于图像和动画裁剪,这也是将来需要进一步研究的工作。

关 键 词: 企业信息门户 网页裁剪 正则表达式 有穷自动机

分 类 号: [F270.7 TP393.4]

领  域: [经济管理] [经济管理] [自动化与计算机技术] [自动化与计算机技术]

相关作者

作者 黄讴

相关机构对象

机构 中山大学
机构 华南理工大学
机构 珠海城市职业技术学院

相关领域作者

作者 杜松华
作者 李文姬
作者 邵慧君
作者 周国林
作者 邢弘昊