本文内容主要关于双机热备技术在铁区MES系统中的应用,包括双机热备技术和双机热备技术在铁区MES系统设计与实现。
一、双机热备技术
服务器的故障可能由各种原因引起,如设备故障、操作系统故障、管理系统故障等等。一般地讲,在技术人员在现场的情况下,恢复服务器正常可能需要10分钟、几小时甚至几天。从实际经验上看,除非是简单地重启服务器,否则往往需要几个小时以上。而如果技术人员不在现场,则恢复服务的时间就更长了。因此,就需要通过双机热备技术,来避免长时间的服务中断,保证系统长期、可靠的服务。
双机热备这一概念包括了广义与狭义两种意义。从广义上讲,就是对于重要的服务,使用两台服务器,互相备份,共同执行同一服务。当一台服务器出现故障时,可以由另一台服务器承担服务任务,从而在不需要人工干预的情况下,自动保证系统能持续提供服务。双机热备由备用的服务器解决了在主服务器故障时服务不中断的问题。双机热备一般情况下需要有共享的存储设备。但某些情况下也可以使用两台独立的服务器。实现双机热备,需要通过专业的集群软件或双机软件。从狭义上讲,双机热备特指基于active/standby方式的服务器热备。服务器数据包括数据库数据同时往两台或多台服务器写,或者使用一个共享的存储设备。在同一时间内只有一台服务器运行。
1. 双机热备与磁盘阵列和数据备份的关系
应该说双机热备和磁盘阵列(RAID)和数据备份都是很重要的。因为RAID技术只能解决硬盘的问题,备份只能解决系统出现问题后的恢复。而一旦服务器本身出现问题,不论是设备的硬件问题还是软件系统的问题,都会造成服务的中断。因此,RAID及数据备份技术不能解决避免服务中断的问题。对于需要持续可靠地提供应用服务的系统,双机热备还是非常重要的。只要想一想,如果你的服务器坏了,你要用多少时间将其恢复到能正常工作,你的用户能容忍多长的恢复时间就能理解双机热备的重要性了。
从另外一个方面,RAID以及磁带备份也是非常需要的。对于RAID而言,可以以很低的成本大大提高系统的可靠性,而且其复杂程度远远低于双机热备。因为毕竟硬盘是系统中机械操作最频繁、易损率最高的部件,如果采用RAID,就可以使出现故障的系统很容易修复,也减少服务器停机进行切换的次数。
数据备份更是必不可少的措施。因为不论RAID还是双机,都是一种实时的备份。任何软件错误、病毒影响、误操作等等,都会同步地在多份数据中发生影响。因此,一定要进行数据的备份,以便能在数据损坏、丢失时进行恢复。
2.双机热备技术的硬件支持
双机热备有两种实现模式,一种是基于共享的存储设备的方式,另一种是没有共享的存储设备的方式,一般称为纯软件方式。基于存储共享的双机热备是双机热备的最标准方案。对于这种方式,采用两台或多台服务器,使用共享的存储设备。两台服务器可以采用互备、主从、并行等不同的方式。在工作过程中,两台服务器将以一个虚拟的IP地址对外提供服务,依工作方式的不同,将服务请求发送给其中一台服务器承担。同时,服务器通过心跳线侦测另一台服务器的工作状况。当一台服务器出现故障时,另一台服务器根据心跳侦测的情况做出判断,并进行切换,接管服务。对于用户而言,这一过程是全自动的,在很短时间内完成,从而对业务不会造成影响。由于使用共享的存储设备,因此两台服务器使用的实际上是一样的数据,由双机或集群软件对其进行管理。
二、双机热备技术在铁区MES系统设计与实现
所谓双机热备份是指系统对主机及硬盘、通讯线路等核心设备,采用双机备份,当系统正常时主机进行工作,并且每隔设定时间系统自动检测,若发现问题,MES系统能够自动切换到备份机继续工作,保证不影响MES系统的正常运行。它的优点就是可有效地提高MES系统的可用性。如果一个服务器或应用程序崩溃,热备分系统中另一个服务器在继续工作的同时,接管崩溃服务器的任务,最大限度地缩短用户服务器和应用程序宕机的时间。
1.MES系统解决方案总体部署
宝钢股份不锈钢分公司炼铁厂MES系统双机热备份方案的网络结构框架,由两台服务器进行群集,每台服务器中至少安装两块网卡,一块网卡负责“心跳”侦测,另一块负责对外通讯。考虑到铁区MES系统需要与公司L3(产销系统)和铁区各过程控制系统(L2)连接,因此每台服务器中应安装三块网卡。除此之外,因为要共享使用磁盘存储,所以使用IBM的EXP300磁盘柜作为外置磁盘阵列,其总线类型采用SCSI总线。整个双机热备份系统中,两台服务器的操作系统各自安装在两台服务器的本地存储系统中,只是需要共享的数据,如数据软件和数据文档等,就需要存放在共用的磁盘阵列中。
2.双机热备技术在铁区MES系统的方案硬件配置
服务器主机:两台IBM X255服务器。IBM xSeries 255是高性能的4路基于Intel Xeon处理器的服务器,支持高达360GB 的内部磁盘数据存储容量和多磁带备份功能,使系统扩展和数据备份更加容易。
磁盘阵列卡:IBM ServerRaid 4Mx控制卡,可根据需要组成Raid5磁盘阵列,允许在任意一块硬盘故障的情况下,不影响系统的运行。
外置磁盘:IBM的磁盘柜EXP300是专为企业级关键商业应用而设计,具备很高的数据存储可扩展性、数据安全性和访问能力,具有关键的可靠性增强特性、更快的数据访问能力,并且驱动器扩展能力强、性价比高,支持磁盘驱动器的预测故障分析,支持14个盘位,存储容量最高可达1TB。
3.双机热备技术在铁区MES系统的方案软件配置
操作系统Windows Server 2003企业版两套,已包含Custer(群集)组件无需购买双机备份所需的服务器群集软件,可节省开支。
数据库选用Oracle9i数据库,Oracle数据库作为企业数据库平台不但兼容性最好,而且其优良的性能和强大的功能已得到无数用户的认可。
4.双机热备技术在铁区MES系统的方案网络配置
由于是两台服务器作为一个群集,因此除两台服务器各自拥有的L3、L2网络真实地址外,还必须为群集分配一个“虚拟”IP地址,作为其他客户端访问群集时所用的地址。同时还必须为每台服务器分配一个监测“心跳”的IP地址。
5.双机热备技术在铁区MES系统应用方案实现
由上述软、硬件和网络配置构成的两台服务器+共享磁盘阵列柜高可用系统。通过系统的服务监测模块来互相监测对方的心跳及服务,服务监测模块通过网络来定时监测对方心跳。
正常运行时,数据库服务器运行Oracle数据库,且在工作时使用磁盘阵列,应用服务器运行各类应用程序。当数据库服务器出现故障后,应用服务器监测到数据库服务器出现故障,接管数据库服务器的IP地址,然后再mount上磁盘阵列,最后启动Oracle数据库服务。当应用服务器出现故障后,数据库服务器监测到应用服务器出现故障,接管应用服务器的IP地址,然后启动应用服务器上的应用程序。
小结
从以上方案介绍可得知双机热备技术在铁区MES系统中的应用最大的特点就是较低的成本、非常高的稳定性能和可扩展性能。还有一个最大的特点就是,具有非常完善的冗余机制和极佳的可扩展性能,使得用户不再需要过多地对系统的稳定性能和可扩展性操心,完全可以满足铁区MES系统恒久稳定运作,以及长期的存储容量和性能需求。