导 师: 陈明宇;詹剑锋
学科专业: H1203
授予学位: 硕士
作 者: ;
机构地区: 中国科学院计算技术研究所
摘 要: 随着机群系统规模的增大,节点数目的增多,机群系统整体的可靠性会相应降低,故障的发生不可避免。同时,随着机群应用日益普及尤其是机群上商业应用服务的迅速发展,人们对机群系统的可用性提出了更高要求。机群操作系统作为建立在节点操作系统基础之上的最基本的机群系统软件集,是机群实现对外提供服务的途径。因此,机群操作系统必须具有对外提供高可用服务的功能。同时为了适应机群系统规模的日益增大,高可用服务应该具有很好的可扩展性。曙光4000a机群操作系统是一个采用构件技术构造的基于服务的一体化系统,以高可用性和可扩展性作为设计的核心目标。系统中各功能子系统或模块被封装成不同的构件,构件间以服务的形式实现彼此位置透明的交互,系统实现的功能也以服务的形式提供给机群系统的应用。本文以实现机群操作系统的高可用服务为目的,以曙光4000a机群操作系统为工程背景,在分析机群系统的特征和高可用系统理论及关键技术的基础上,提出了分布与集中相结合的高可用服务架构,在此基础上设计并实现机群操作系统提供高可用服务的关键构件-组服务构件,在解决机群操作系统可用性问题的同时,解决了高可用服务的可扩展性问题,曙光4000a机群操作系统实际部署规模为640个节点。论文首先论述了选题的背景和目的,然后介绍了进行论文研究的高可用基本理论、实现系统高可用的途径、技术和关键问题。论文围绕构件化机群操作系统实现高可用服务需要解决的关键问题,详细描述了构件化机群操作系统实现高可用服务的方法以及作为机群操作系统实现高可用服务的重要模块-组服务构件的功能和地位并详细描述了组服务构件的设计和实现。最后通过建立数学模型对机群操作系统实现的高可用服务进行量化分析。
分 类 号: [TP316]
领 域: [自动化与计算机技术] [自动化与计算机技术]