2023年12月6日发(作者:析含云)
联想SureHA集群管理软件LN
用 户 手 册
版本号:V1.0
联想集团有限公司1999-2003年版权所有。如事先未得到联想集团有限公司任何书面许可,本文件中的任何部分都不得进行复制,或以任何形式、任何手段进行转载。
联想集团有限公司对本材料未作任何形式的担保,包括对具体用途的商品性和适用性的隐含担保。联想集团有限公司对本材料中可能出现的任何错误都不承担任何责任。联想集团有限公司未做出对本手册中的信息更新或保持是最新信息的承诺。第三方的品牌和名称是他们相应的拥有者的产权。 目 录
第一章 前 言
1.1 SureHA概述
感谢您使用联想SureHA集群管理软件,我们的集群管理软件将帮助您构建高可靠的双机系统,以保护您的数据和服务,本手册将为您介绍我们的SureHA集群软件并指导您安装和配置您的系统。
信息是企业的首要财富。在一个企业内用于归档、处理和传输信息的计算机系统必须日复一日不断地监控和提供可靠的、及时的、连续的服务。客户/服务(Client/Server)结构已经成为一个主流应用。多服务器协作有以下优点。
¾ 提高效率:任务可发送到指定服务器运行,每台服务器的所有资源可用于一个特殊任务。
¾ 改善可用性 :一台服务器宕机不妨碍用户使用其他服务器。
¾ 降低费用:Linux平台下的总体费用较低于其他服务器平台。
集群软件是在系统不可避免地发生故障时的软件解决方案。它的基础是构造服务器集群的高可用性。国际互联网、企业网(Intranet )以及各种应用程序都可以从集群软件中受益。任何导致系统崩溃或服务中断的错误都将启动集群软件,鉴别故障,隔离错误并在线恢复中断的服务。中断的服务将被指定的备份服务器接管并继续。用户只需等待响应延迟,服务在最短的时间内可以继续使用。
1.2 SureHA 特点
¾
¾
¾
¾
提供两节点集群高可用性方案
纯软件解决方案,针对系统不可避免的预期和非预期宕机问题
系统宕机或服务中断时可提供错误识别、故障分离和服务的在线恢复等功能
支持对多种常用系统服务和应用软件的保护
¾
通过用户自定义服务管理,支持其它应用软件的保护
1.3 SureHA 工作方式
SureHA 支持主从方式和对等方式。在主从方式中,一台服务器被指定为进行关键性操作的主服务器,另一服务器作为热备份服务器。在对等方式中,所有服务器指定为各自进行关键性操作的主服务器。两台服务器互相备份。
1.4 SureHA 硬件组成
当前的集群软件支持双服务器集群配置。两台服务器会定期通讯以确定对方服务器是否有效以及关键性操作是否存在。
服务器集群系统由以下硬件组成:
¾ 服务器:为服务提供相同的Linux系统平台,分主服务器和备份服务器。
主服务器:一台为以特有的网络身份进入的客户端提供集群保护服务的服务器(包括IP
地址或主机名)。一台主服务器也可以成为另一台主服务器的备份服务器。例如,在主服务器上运行NFS服务。集群软件将监测主服务器和NFS服务的可用性。如果其中之一变为不可用,NFS将被中断。集群软件将启动预先指定的备份服务器作为主服务器继续被中断的原来的NFS。
备份服务器:一台在主服务器变为不可用时接管其资源和服务的服务器。当主服务器或关键操作不可用时,集群软件将通知备份服务器接管。
主服务器和备份服务器的类型和硬件配置不一定要完全一致。
¾ 客户端:通过公有网络访问主服务器服务的计算机系统
¾ 通讯链路:SureHA支持适用于TCP/IP协议的ATM, Ethernet, FastEthernet, and FDDI网络,包括私有网络和私有网络;
私有网络
私有网络为两台服务器提供独立的介质进行互相通讯;
私有网络的两种类型:
TCP/IP Socket:每个服务器必须安装互相联系的专用网卡
RS-232:每个服务器上各有一空闲的串口。
即使所有的心跳都无效,服务器之间还是可以通过公有网络侦测对方服务器的状态,如果活动服务器仍然处于有效的活动状态,也不会进行强行切换而出现资源争用的情况,如果对方服务器发生服务故障,SureHA就会按照正常的步骤将相应的服务接管过来。
公有网络
公有网络是客户端访问集群保护服务的路径;
活动IP地址:在主服务器上活动的网卡所带的漂移IP 地址,若主服务器崩溃或不可用,此漂移IP地址将在备份服务器被备份的网卡所携带。在集群中可
以有多个活动IP 地址,每个IP 地址都可以由指定的网卡携带。
活动的网卡:在主服务器上指定的网卡
备份的网卡:在备份服务器上指定的网卡
当主服务器崩溃或不可用,备份服务器接管服务后,客户端仍能通过相同的IP 地址或计算机别名访问集群保护的服务。此时备份网卡接管活动IP地址成为活动的网卡,因此客户端能通过相同的IP 地址访问服务。备份服务器接管计算机名成为主服务器,因此客户端能通过相同的计算机名访问服务。
¾ 私有磁盘
服务器本地的基本磁盘,用于安装操作系统,应用程序和每台服务器的本地数据。
¾ 共享磁盘
共享磁盘用于存储集群保护的数据,采用独立冗余磁盘阵列RAID,单块物理磁盘损坏不影响在线数据,需要独立双通道的SCSI或光纤接口RAID系统的支持。
1.5 SureHA软件构架
联想SureHA集群系统的构架如下图所示:包括上层的管理工具(Administration Tool)和服务(Service)以及建于底层操作系统之上的集群服务、集群监控服务和相关的Agent和脚本。
1.5.1 集群服务和集群监控服务
集群服务和集群监控服务是SureHA 的核心,它们是相辅相成的服务,如果其中一个非正常停止,本地服务器上的另一个服务会立刻重新启动它,这是为了防止SureHA出现单点故障。集群监控服务是十分有效的。它向另一服务器定期发送服务器心跳。如果在一定时间内收不到服务器心跳,则服务器将会被认为退出或不可用。
当集群服务启动的时候,下面的操作会被执行:
9 根据用户的配置初始化私有网络,启动服务器之间的心跳信息交换;
9 根据用户的配置启动相应服务;
9 运行预定义或用户定义的Agent等程序以监控服务器和HA所保护的服务的状态;
9 处理用户通过管理工具对服务的配置参数改变;
9 产生并更新事件日志;
1.5.2 服务
服务是用户定义由SureHA集群软件保护的应用,服务的配置需要确定许多相关的对象和资源:
9 运行服务的主服务器和备份服务器;
9 可切换的活动IP;
9 网卡绑定的IP,包括主服务器活动网卡IP,主服务器备份网卡IP(可选)和备份服务器备份网卡IP;
9 基于共享磁盘,并且保证只有主动服务器才可以Mount共享卷,备份服务器只有在接管发生故障的主服务器服务时才Mount相应的共享卷;
9 脚本:用来启动或停止服务的可执行文件;
9 Agent:用来监控服务可用性的可执行文件;
1.5.3 代理程序Agent
SureHA提供代理程序监控服务、数据链路、网卡和服务器的可用性。Agent经过周期性地接受心跳信息报告集群服务所监控的服务的可用性。在服务器、网络、磁盘卷以及服务中应嵌入监控可用性的代理程序。Agent可以用C/C++编写或编成Shell脚本,API 代理和框架是对于特定的服务体由用户开发的附加的代理程序。API 代理也为具有开放界面的SureHA管理工具 和第三方管理工具互相通讯提供服务,客户可以编写用来监控自己开发的应用服务的Agent。当一个服务被备份服务器接管,备份服务器作为暂时的主服务器,如果允许自动回切功能,当原来的主服务器重新可用后,服务将自动切换回原来的主服务器。如果自动回切被关闭,备份服务器将升级为主服务器,原来的主服务器再变为可用后,就将会降级为备份服务器。
1.5.4 脚本Script
脚本由Linux可执行文件组成。用户可以配置集群软件相应的脚本来启动或停止服务以实现服务的切换和接管。脚本包含用户指定的服务及复杂应用程序所使用的环境。
1.5.5 管理工具
联想SureHA集群管理软件提供直观简洁的管理工具,她具有一下特点:
1. 直观的图形界面或文本界面;
2. 错误侦测,菜单驱动和基于窗口的界面;
3. 实时监控窗口;
运行GUI管理工具必须安装Java1.2以上版本,所有在集群中的设置与管理任务都可在不影响其他正在运行的操作而在线运行。在集群中的任何升级都可以自动转移到另一台服务器上。服务器之间的集群配置都保持同步。
1.6 故障恢复
¾ 故障恢复过程
以下是当主服务器有故障发生时,由手动或其自动向备份服务器移交服务的过程:
#1:如果可能, 主服务器将尝试释放服务,这是为了保证数据的正确性。在服务被中断或超时时,主服务器将通知备份服务器接管;
#2:备份服务器尝试恢复服务;
错误恢复过程所需要的时间主要取决于三种因素:
1.卷:接管卷资源的服务器需要对文件系统进行检查与恢复。如果共享卷中有比较多的文件或目录则需要较长时间。
2.服务:服务将在被主服务器终止后,再被备份服务器启动。这一过程所需的时间取决于应用程序。
3.用户定义:运行用户指定的脚本所需时间依赖用户自编的脚本程序的效率。
¾ 本地故障恢复
任何导致服务终止的错误都会首先在本地解决。集群软件将尝试按照预定的方式重¾
¾
¾
¾
新启动服务或启用备份网卡。如果不能继续,服务才会被备份服务器接管。本地恢复中断操作的所用时间比较少,并且不会妨碍另一台服务器。
移交
在主服务器上运行的集群软件发现主服务器的服务不再可用时,将启动移交操作,主服务器将服务转移到备份服务器上并重新开始。
接管
在备份服务器上运行的集群软件发现主服务器的服务不再可用时,将会自动接管程序,主服务器将服务转移到备份服务器上并重新开始运行。
切换
集群软件在配置服务时提供自动切换功能。此功能将影响在主服务器不可用时移交服务到备份服务器上。用户可以定义当原主服务器故障恢复后能否将服务自动切回。
当原来的主服务器重新变为正常但自动切换功能被禁止,原来的主服务器将被降级为备份服务器,原来的备份服务器将升级为主服务器。相反,如果自动切换未被禁止,服务将切换回原来的主服务器。
即当一台服务器宕机后重新恢复,切换功能允许服务器继续原来的工作。
客户端
客户端的应用程序以漂移的身份(IP 地址或计算机别名)访问服务。主服务器的服务携带漂移的网络身份。不需要重新配置或更改客户端的应用程序。
服务无关性应用(例如 NFS 服务和UDP-based 应用程序)的中断和重启对来说用户是透明的。 客户端自动在接管完成后重新连接到新的主服务器。
对服务相关性强的应用 (例如客户/服务 RDBMS 应用程序和 TCP-based 服务) 将导致客户端的应用程序与服务器失去连接。客户端必须在接管完成后手动重新连接到新的主服务器。 当然客户端的应用程序经改进后,可以在接管完成后自动连接到新的主服务器。
1.7 卷
联想SureHA提供卷锁功能使得只有主服务器能访问卷,除非备份服务器接管资源和服务,否则备份服务器将被禁止访问卷。在卷被锁之前,卷中没有文件打开,并且没有用户访问卷。推荐在卷中访问文件和路径时指定全路径名替代直接进入目录。
当卷从一台服务器切换到另一台服务器时,服务器需要按照正确的文件系统恢复任务。如果 SureHA 恢复操作失败,卷中的数据会损坏且不能访问。
1.8 支持的应用
联想SureHA集群管理软件支持以下Linux的应用:
¾ 网络文件共享NFS
¾ Oracle、Sybase、DB2、SQL和Informix RDBMS
¾ Internet服务WWW、FTP、MAIL等
¾ 基于TCP/IP 协议的客户/服务模式的应用
¾ 用户自定义的应用服务
第二章 SureHA安装与卸载
这一章节的内容将为您介绍如何安装和卸载联想SureHA集群管理软件,请详细阅读手册内容并严格按照相关步骤进行操作。
2.1 安装准备
¾ 确定主机、磁盘阵列的型号;操作系统的版本,数据库的类型版本,卷管理软件的类型版本;网卡(网口)的数量类型及用途,RS232串行口的数量及用途。
¾ 确定主机与磁盘阵列,网卡,RS232串行口的物理连接正确无误。直连的网卡,RS232串行口均应该采用交叉线连接。
关于RS232串口线的做法是,
如果两端都是9 pin 的接头, 则pin2(RD), pin3(TD) 交叉反接, pin1和pin
5(GND)直连, 其它pin不连接:
DB9 DB9
1 GND --------- 1 GND
2 RD --------- 3 TD
3 TD --------- 2 RD
5 GND --------- 5 GND
说明:联想SureHA集群管理软件到货都会附赠DB9交叉串口线一根。
¾ 确定两台主机均能访问到相同的共享磁盘设备,注意有一些卷管理软件要求同一个共享磁盘设备在两台主机上必须使用相同的设备名称。
¾
确定数据库已经安装完成,并且分别在两台主机上均能够独立的正常启动和停止,客户端能够正常访问数据库。并且两台主机数据库用户和组必须一样,以及root用户的配置文件,和一些内核参数的修改。并配合HA安装时,服务使用的活动IP是否已经加入到了/etc/hosts文件中。
2. 2 安装SureHA
(1) 放入联想SureHA集群管理软件CD;
(2) Mount CD并将SureHA软件拷贝到临时目录
# mount /dev/cdrom /mnt/cdrom
# cp /mnt/cdrom/Linux/RPMS/*.rpm /tmp
或
# cp /mnt/cdrom/Linux/Shell/*.* /tmp
说明:SureHA提供两种安装方式:rpm和shell,客户可以任选其中一种方式进行安装 (3) 转到相应目录,运行安装文件
# rpm –i *.rpm
或
# ./
(4) 检查是否已经安装成功
# rpm –qi SUREHA
SureHA的所有文件均自动安装在目录/opt/SureHA下,SureHA安装完成后的目录结构如下:
/opt/SureHA/bin SureHA的所有可执行文件和启动、停止脚本均放在此目录
/opt/SureHA/etc SureHA的配置文件和所有的日志文件均存放在此目录
/opt/SureHA/gui SureHA的GUI管理工具文件存放在此目录
/opt/SureHA/tmp SureHA的临时文件存放在此目录
(5) 准备SureHA的运行环境
设置SureHA的父目录环境变量。在目录/etc下的文件bashrc或profile中添加内容: HAHOME=/opt/SureHA
export HAHOME
SureHA安装完成后,会自动在 /etc/bashrc 的最后,添加HAHOME 环境变量的设置,注意,在运行SureHA之前,必须先使SureHA的父目录环境变量生效。可以通过(logout)重新登录的方式使环境变量生效。如果用户是通过Telnet方式来运行SureHA,用户也必须保证在该telnet(终端)窗口设置并生效了SureHA的父目录环境变量。
(6) 创建库文件连接
SureHA for Linux 目前适用RedHat6.x, 7.x,8.0,Turbo Linux6.5和RedFlag
Linux等,支持Linux 2.2.x 和 2.4.x 的内核。但是在配置系统的时候需要注意一些运行时需要的库文件需要安装上。另外由于RedHat 版本不同,有的版本的库的名称发生了变化,这种情况下,需要手动创建4个链接。请参考:
对于RedHat7.1, 8.0 的支持,由于系统库的名称变化,因此需要手动创建如下4个链接。例如:
cd /usr/lib
ln -s .5.2 .4
ln -s .5.2 .4
ln -s .5.2 .4
ln -s .5.2 .4
对于RedHat7.2,由于系统本身缺省已建立上述链接,无需再单独创建。 对于TurboLinux6.5 中HA的文本界面显示不完整的问题,可以通过修改TurboLinux6.5中的一个链接来解决。例如
cd /usr/lib
mv .4
ln -s .5.2 .4
(7) 设置SureHA管理工具的用户名和密码
HA管理工具的用户名和密码与系统本身的帐号密码无关。
进入目录:/opt/SureHA/bin,
执行命令:./NewPass
按照提示输入用户名和密码,这里输入的用户名和密码在启动SureHA的管理工具的时候会被要求输入。注意,NewPass执行一次后,就会将自己删除,以后可以通过SetPass命令来修改。所以用户可以先将NewPass备份成另外一个文件,存放到一个安全的地方,当忘掉用户或密码时可以通过备份的NewPass创建一个新的用户和密码。
(8) 在另一台服务器上重复执行步骤1-7,进行相同的SureHA安装;
2. 3 申请License
联想SureHA安装成功以后,如果需要使用HA的管理工具进行集群配置必须先
行申请Licesne,申请license前应该先获得HostID编号,ID的生成方法如下:
# cd /opt/SureHA/bin
# ./hostid
22C405D4C5
在两台服务器上进行同样的操作,获得两台服务器的HostID,请参照下面的
表格将内容填写完整后发送Email或传真给联想(北京)有限公司:
服务器A 服务器B
OS版本
SureHA版本
HostID
截止日期
2. 4 卸载SureHA
由于某种原因,您可能需要卸载SureHA并进行重新安装,对应不同的安装方式,卸载方式也有两种:
# rpm –e SUREHA 或
# ./
2. 5 安装Java插件
如果您需要用GUI界面管理工具进行HA的配置,则要预先安装Java运行环境。联想SureHA集群管理软件会随机附赠一张软件包光盘,内含JDK1.4.1,包含JRE和SDK,分别有两种文件和对应两种安装方式:
(1)进入相应目录,安装JRE
#chmod a+x j2re-1_4_1_
#./j2re-1_4_1_
或
#chmod a+x j2re-1_4_1_
#./j2re-1_4_1_
#rpm -iv j2re-1_4_1_
(2)进入相应目录,安装SDK
#
chmod a+x j2sdk-1_4_1_
#
./j2sdk-1_4_1_
或
#
chmod a+x j2sdk-1_4_1_
#
./j2sdk-1_4_1_
#
rpm -iv j2sdk-1_4_1_
更为详尽的安装方法请参见附赠软件中带的installation文件。
2.6 安装应用软件
安装完SureHA在开始配置之前,必须在两台服务器上预先安装需要由集群保护的相关应用软件(如Oracle, Sybase, Informix等) ,这样当主服务器宕机之后,备份服务器可以接管并继续运行相应服务。请确认需要受保护的服务可以正常运行和使用。
每台服务器必须安装由联想提供的SureHA应用程序。当安装应用程序软件时,数据应存放在共享磁盘的卷上。可执行文件也存放在共享磁盘的卷上。但是,如果需要的话,也可以将可执行文件安装在本地磁盘上。因此当主服务器宕机,备份服务器可以使用本地磁盘上可执行文件的拷贝继续应用程序,仍然能访问共享磁盘上的资源服务。
SureHA提供服务切换而不需要关闭任何服务器。指定应用程序将访问和配置的卷作为卷资源。用户可以在主服务器上开始安装应用程序。卷锁将阻止备份服务器访问卷。在主服务器上的应用程序安装完毕后,只在移交卷资源到备份服务器上时再安装应用程序,卷锁将阻止原来的主服务器访问卷资源。确认应用程序在运行前已完全安装并配置好。 第三章 管理工具
3.1 运行SureHA管理界面
使用JRE或JDK1.2以上的版本,所连网络中任何计算机都可以调用SureHA管理工具进行HA的配置和管理,当然首先必须参照前面的安装步骤设置密码和权限。
如果SureHA设置成手动运行,则两台服务器均必须通过$HAHOME/bin/hamond命令来运行管理软件,即:
# cd /opt/SureHA/bin
# export HAHOME=/opt/SureHA
# ./hamond
安装完毕第一次启动配置界面的时候必须手动运行hamond,以后每次重起服务器后,hamond会自动启动。Hamond启动之后就可以运行HA的管理界面,SureHA提供两种简便的管理方式: GUI图形界面和文本界面。
2023年12月6日发(作者:析含云)
联想SureHA集群管理软件LN
用 户 手 册
版本号:V1.0
联想集团有限公司1999-2003年版权所有。如事先未得到联想集团有限公司任何书面许可,本文件中的任何部分都不得进行复制,或以任何形式、任何手段进行转载。
联想集团有限公司对本材料未作任何形式的担保,包括对具体用途的商品性和适用性的隐含担保。联想集团有限公司对本材料中可能出现的任何错误都不承担任何责任。联想集团有限公司未做出对本手册中的信息更新或保持是最新信息的承诺。第三方的品牌和名称是他们相应的拥有者的产权。 目 录
第一章 前 言
1.1 SureHA概述
感谢您使用联想SureHA集群管理软件,我们的集群管理软件将帮助您构建高可靠的双机系统,以保护您的数据和服务,本手册将为您介绍我们的SureHA集群软件并指导您安装和配置您的系统。
信息是企业的首要财富。在一个企业内用于归档、处理和传输信息的计算机系统必须日复一日不断地监控和提供可靠的、及时的、连续的服务。客户/服务(Client/Server)结构已经成为一个主流应用。多服务器协作有以下优点。
¾ 提高效率:任务可发送到指定服务器运行,每台服务器的所有资源可用于一个特殊任务。
¾ 改善可用性 :一台服务器宕机不妨碍用户使用其他服务器。
¾ 降低费用:Linux平台下的总体费用较低于其他服务器平台。
集群软件是在系统不可避免地发生故障时的软件解决方案。它的基础是构造服务器集群的高可用性。国际互联网、企业网(Intranet )以及各种应用程序都可以从集群软件中受益。任何导致系统崩溃或服务中断的错误都将启动集群软件,鉴别故障,隔离错误并在线恢复中断的服务。中断的服务将被指定的备份服务器接管并继续。用户只需等待响应延迟,服务在最短的时间内可以继续使用。
1.2 SureHA 特点
¾
¾
¾
¾
提供两节点集群高可用性方案
纯软件解决方案,针对系统不可避免的预期和非预期宕机问题
系统宕机或服务中断时可提供错误识别、故障分离和服务的在线恢复等功能
支持对多种常用系统服务和应用软件的保护
¾
通过用户自定义服务管理,支持其它应用软件的保护
1.3 SureHA 工作方式
SureHA 支持主从方式和对等方式。在主从方式中,一台服务器被指定为进行关键性操作的主服务器,另一服务器作为热备份服务器。在对等方式中,所有服务器指定为各自进行关键性操作的主服务器。两台服务器互相备份。
1.4 SureHA 硬件组成
当前的集群软件支持双服务器集群配置。两台服务器会定期通讯以确定对方服务器是否有效以及关键性操作是否存在。
服务器集群系统由以下硬件组成:
¾ 服务器:为服务提供相同的Linux系统平台,分主服务器和备份服务器。
主服务器:一台为以特有的网络身份进入的客户端提供集群保护服务的服务器(包括IP
地址或主机名)。一台主服务器也可以成为另一台主服务器的备份服务器。例如,在主服务器上运行NFS服务。集群软件将监测主服务器和NFS服务的可用性。如果其中之一变为不可用,NFS将被中断。集群软件将启动预先指定的备份服务器作为主服务器继续被中断的原来的NFS。
备份服务器:一台在主服务器变为不可用时接管其资源和服务的服务器。当主服务器或关键操作不可用时,集群软件将通知备份服务器接管。
主服务器和备份服务器的类型和硬件配置不一定要完全一致。
¾ 客户端:通过公有网络访问主服务器服务的计算机系统
¾ 通讯链路:SureHA支持适用于TCP/IP协议的ATM, Ethernet, FastEthernet, and FDDI网络,包括私有网络和私有网络;
私有网络
私有网络为两台服务器提供独立的介质进行互相通讯;
私有网络的两种类型:
TCP/IP Socket:每个服务器必须安装互相联系的专用网卡
RS-232:每个服务器上各有一空闲的串口。
即使所有的心跳都无效,服务器之间还是可以通过公有网络侦测对方服务器的状态,如果活动服务器仍然处于有效的活动状态,也不会进行强行切换而出现资源争用的情况,如果对方服务器发生服务故障,SureHA就会按照正常的步骤将相应的服务接管过来。
公有网络
公有网络是客户端访问集群保护服务的路径;
活动IP地址:在主服务器上活动的网卡所带的漂移IP 地址,若主服务器崩溃或不可用,此漂移IP地址将在备份服务器被备份的网卡所携带。在集群中可
以有多个活动IP 地址,每个IP 地址都可以由指定的网卡携带。
活动的网卡:在主服务器上指定的网卡
备份的网卡:在备份服务器上指定的网卡
当主服务器崩溃或不可用,备份服务器接管服务后,客户端仍能通过相同的IP 地址或计算机别名访问集群保护的服务。此时备份网卡接管活动IP地址成为活动的网卡,因此客户端能通过相同的IP 地址访问服务。备份服务器接管计算机名成为主服务器,因此客户端能通过相同的计算机名访问服务。
¾ 私有磁盘
服务器本地的基本磁盘,用于安装操作系统,应用程序和每台服务器的本地数据。
¾ 共享磁盘
共享磁盘用于存储集群保护的数据,采用独立冗余磁盘阵列RAID,单块物理磁盘损坏不影响在线数据,需要独立双通道的SCSI或光纤接口RAID系统的支持。
1.5 SureHA软件构架
联想SureHA集群系统的构架如下图所示:包括上层的管理工具(Administration Tool)和服务(Service)以及建于底层操作系统之上的集群服务、集群监控服务和相关的Agent和脚本。
1.5.1 集群服务和集群监控服务
集群服务和集群监控服务是SureHA 的核心,它们是相辅相成的服务,如果其中一个非正常停止,本地服务器上的另一个服务会立刻重新启动它,这是为了防止SureHA出现单点故障。集群监控服务是十分有效的。它向另一服务器定期发送服务器心跳。如果在一定时间内收不到服务器心跳,则服务器将会被认为退出或不可用。
当集群服务启动的时候,下面的操作会被执行:
9 根据用户的配置初始化私有网络,启动服务器之间的心跳信息交换;
9 根据用户的配置启动相应服务;
9 运行预定义或用户定义的Agent等程序以监控服务器和HA所保护的服务的状态;
9 处理用户通过管理工具对服务的配置参数改变;
9 产生并更新事件日志;
1.5.2 服务
服务是用户定义由SureHA集群软件保护的应用,服务的配置需要确定许多相关的对象和资源:
9 运行服务的主服务器和备份服务器;
9 可切换的活动IP;
9 网卡绑定的IP,包括主服务器活动网卡IP,主服务器备份网卡IP(可选)和备份服务器备份网卡IP;
9 基于共享磁盘,并且保证只有主动服务器才可以Mount共享卷,备份服务器只有在接管发生故障的主服务器服务时才Mount相应的共享卷;
9 脚本:用来启动或停止服务的可执行文件;
9 Agent:用来监控服务可用性的可执行文件;
1.5.3 代理程序Agent
SureHA提供代理程序监控服务、数据链路、网卡和服务器的可用性。Agent经过周期性地接受心跳信息报告集群服务所监控的服务的可用性。在服务器、网络、磁盘卷以及服务中应嵌入监控可用性的代理程序。Agent可以用C/C++编写或编成Shell脚本,API 代理和框架是对于特定的服务体由用户开发的附加的代理程序。API 代理也为具有开放界面的SureHA管理工具 和第三方管理工具互相通讯提供服务,客户可以编写用来监控自己开发的应用服务的Agent。当一个服务被备份服务器接管,备份服务器作为暂时的主服务器,如果允许自动回切功能,当原来的主服务器重新可用后,服务将自动切换回原来的主服务器。如果自动回切被关闭,备份服务器将升级为主服务器,原来的主服务器再变为可用后,就将会降级为备份服务器。
1.5.4 脚本Script
脚本由Linux可执行文件组成。用户可以配置集群软件相应的脚本来启动或停止服务以实现服务的切换和接管。脚本包含用户指定的服务及复杂应用程序所使用的环境。
1.5.5 管理工具
联想SureHA集群管理软件提供直观简洁的管理工具,她具有一下特点:
1. 直观的图形界面或文本界面;
2. 错误侦测,菜单驱动和基于窗口的界面;
3. 实时监控窗口;
运行GUI管理工具必须安装Java1.2以上版本,所有在集群中的设置与管理任务都可在不影响其他正在运行的操作而在线运行。在集群中的任何升级都可以自动转移到另一台服务器上。服务器之间的集群配置都保持同步。
1.6 故障恢复
¾ 故障恢复过程
以下是当主服务器有故障发生时,由手动或其自动向备份服务器移交服务的过程:
#1:如果可能, 主服务器将尝试释放服务,这是为了保证数据的正确性。在服务被中断或超时时,主服务器将通知备份服务器接管;
#2:备份服务器尝试恢复服务;
错误恢复过程所需要的时间主要取决于三种因素:
1.卷:接管卷资源的服务器需要对文件系统进行检查与恢复。如果共享卷中有比较多的文件或目录则需要较长时间。
2.服务:服务将在被主服务器终止后,再被备份服务器启动。这一过程所需的时间取决于应用程序。
3.用户定义:运行用户指定的脚本所需时间依赖用户自编的脚本程序的效率。
¾ 本地故障恢复
任何导致服务终止的错误都会首先在本地解决。集群软件将尝试按照预定的方式重¾
¾
¾
¾
新启动服务或启用备份网卡。如果不能继续,服务才会被备份服务器接管。本地恢复中断操作的所用时间比较少,并且不会妨碍另一台服务器。
移交
在主服务器上运行的集群软件发现主服务器的服务不再可用时,将启动移交操作,主服务器将服务转移到备份服务器上并重新开始。
接管
在备份服务器上运行的集群软件发现主服务器的服务不再可用时,将会自动接管程序,主服务器将服务转移到备份服务器上并重新开始运行。
切换
集群软件在配置服务时提供自动切换功能。此功能将影响在主服务器不可用时移交服务到备份服务器上。用户可以定义当原主服务器故障恢复后能否将服务自动切回。
当原来的主服务器重新变为正常但自动切换功能被禁止,原来的主服务器将被降级为备份服务器,原来的备份服务器将升级为主服务器。相反,如果自动切换未被禁止,服务将切换回原来的主服务器。
即当一台服务器宕机后重新恢复,切换功能允许服务器继续原来的工作。
客户端
客户端的应用程序以漂移的身份(IP 地址或计算机别名)访问服务。主服务器的服务携带漂移的网络身份。不需要重新配置或更改客户端的应用程序。
服务无关性应用(例如 NFS 服务和UDP-based 应用程序)的中断和重启对来说用户是透明的。 客户端自动在接管完成后重新连接到新的主服务器。
对服务相关性强的应用 (例如客户/服务 RDBMS 应用程序和 TCP-based 服务) 将导致客户端的应用程序与服务器失去连接。客户端必须在接管完成后手动重新连接到新的主服务器。 当然客户端的应用程序经改进后,可以在接管完成后自动连接到新的主服务器。
1.7 卷
联想SureHA提供卷锁功能使得只有主服务器能访问卷,除非备份服务器接管资源和服务,否则备份服务器将被禁止访问卷。在卷被锁之前,卷中没有文件打开,并且没有用户访问卷。推荐在卷中访问文件和路径时指定全路径名替代直接进入目录。
当卷从一台服务器切换到另一台服务器时,服务器需要按照正确的文件系统恢复任务。如果 SureHA 恢复操作失败,卷中的数据会损坏且不能访问。
1.8 支持的应用
联想SureHA集群管理软件支持以下Linux的应用:
¾ 网络文件共享NFS
¾ Oracle、Sybase、DB2、SQL和Informix RDBMS
¾ Internet服务WWW、FTP、MAIL等
¾ 基于TCP/IP 协议的客户/服务模式的应用
¾ 用户自定义的应用服务
第二章 SureHA安装与卸载
这一章节的内容将为您介绍如何安装和卸载联想SureHA集群管理软件,请详细阅读手册内容并严格按照相关步骤进行操作。
2.1 安装准备
¾ 确定主机、磁盘阵列的型号;操作系统的版本,数据库的类型版本,卷管理软件的类型版本;网卡(网口)的数量类型及用途,RS232串行口的数量及用途。
¾ 确定主机与磁盘阵列,网卡,RS232串行口的物理连接正确无误。直连的网卡,RS232串行口均应该采用交叉线连接。
关于RS232串口线的做法是,
如果两端都是9 pin 的接头, 则pin2(RD), pin3(TD) 交叉反接, pin1和pin
5(GND)直连, 其它pin不连接:
DB9 DB9
1 GND --------- 1 GND
2 RD --------- 3 TD
3 TD --------- 2 RD
5 GND --------- 5 GND
说明:联想SureHA集群管理软件到货都会附赠DB9交叉串口线一根。
¾ 确定两台主机均能访问到相同的共享磁盘设备,注意有一些卷管理软件要求同一个共享磁盘设备在两台主机上必须使用相同的设备名称。
¾
确定数据库已经安装完成,并且分别在两台主机上均能够独立的正常启动和停止,客户端能够正常访问数据库。并且两台主机数据库用户和组必须一样,以及root用户的配置文件,和一些内核参数的修改。并配合HA安装时,服务使用的活动IP是否已经加入到了/etc/hosts文件中。
2. 2 安装SureHA
(1) 放入联想SureHA集群管理软件CD;
(2) Mount CD并将SureHA软件拷贝到临时目录
# mount /dev/cdrom /mnt/cdrom
# cp /mnt/cdrom/Linux/RPMS/*.rpm /tmp
或
# cp /mnt/cdrom/Linux/Shell/*.* /tmp
说明:SureHA提供两种安装方式:rpm和shell,客户可以任选其中一种方式进行安装 (3) 转到相应目录,运行安装文件
# rpm –i *.rpm
或
# ./
(4) 检查是否已经安装成功
# rpm –qi SUREHA
SureHA的所有文件均自动安装在目录/opt/SureHA下,SureHA安装完成后的目录结构如下:
/opt/SureHA/bin SureHA的所有可执行文件和启动、停止脚本均放在此目录
/opt/SureHA/etc SureHA的配置文件和所有的日志文件均存放在此目录
/opt/SureHA/gui SureHA的GUI管理工具文件存放在此目录
/opt/SureHA/tmp SureHA的临时文件存放在此目录
(5) 准备SureHA的运行环境
设置SureHA的父目录环境变量。在目录/etc下的文件bashrc或profile中添加内容: HAHOME=/opt/SureHA
export HAHOME
SureHA安装完成后,会自动在 /etc/bashrc 的最后,添加HAHOME 环境变量的设置,注意,在运行SureHA之前,必须先使SureHA的父目录环境变量生效。可以通过(logout)重新登录的方式使环境变量生效。如果用户是通过Telnet方式来运行SureHA,用户也必须保证在该telnet(终端)窗口设置并生效了SureHA的父目录环境变量。
(6) 创建库文件连接
SureHA for Linux 目前适用RedHat6.x, 7.x,8.0,Turbo Linux6.5和RedFlag
Linux等,支持Linux 2.2.x 和 2.4.x 的内核。但是在配置系统的时候需要注意一些运行时需要的库文件需要安装上。另外由于RedHat 版本不同,有的版本的库的名称发生了变化,这种情况下,需要手动创建4个链接。请参考:
对于RedHat7.1, 8.0 的支持,由于系统库的名称变化,因此需要手动创建如下4个链接。例如:
cd /usr/lib
ln -s .5.2 .4
ln -s .5.2 .4
ln -s .5.2 .4
ln -s .5.2 .4
对于RedHat7.2,由于系统本身缺省已建立上述链接,无需再单独创建。 对于TurboLinux6.5 中HA的文本界面显示不完整的问题,可以通过修改TurboLinux6.5中的一个链接来解决。例如
cd /usr/lib
mv .4
ln -s .5.2 .4
(7) 设置SureHA管理工具的用户名和密码
HA管理工具的用户名和密码与系统本身的帐号密码无关。
进入目录:/opt/SureHA/bin,
执行命令:./NewPass
按照提示输入用户名和密码,这里输入的用户名和密码在启动SureHA的管理工具的时候会被要求输入。注意,NewPass执行一次后,就会将自己删除,以后可以通过SetPass命令来修改。所以用户可以先将NewPass备份成另外一个文件,存放到一个安全的地方,当忘掉用户或密码时可以通过备份的NewPass创建一个新的用户和密码。
(8) 在另一台服务器上重复执行步骤1-7,进行相同的SureHA安装;
2. 3 申请License
联想SureHA安装成功以后,如果需要使用HA的管理工具进行集群配置必须先
行申请Licesne,申请license前应该先获得HostID编号,ID的生成方法如下:
# cd /opt/SureHA/bin
# ./hostid
22C405D4C5
在两台服务器上进行同样的操作,获得两台服务器的HostID,请参照下面的
表格将内容填写完整后发送Email或传真给联想(北京)有限公司:
服务器A 服务器B
OS版本
SureHA版本
HostID
截止日期
2. 4 卸载SureHA
由于某种原因,您可能需要卸载SureHA并进行重新安装,对应不同的安装方式,卸载方式也有两种:
# rpm –e SUREHA 或
# ./
2. 5 安装Java插件
如果您需要用GUI界面管理工具进行HA的配置,则要预先安装Java运行环境。联想SureHA集群管理软件会随机附赠一张软件包光盘,内含JDK1.4.1,包含JRE和SDK,分别有两种文件和对应两种安装方式:
(1)进入相应目录,安装JRE
#chmod a+x j2re-1_4_1_
#./j2re-1_4_1_
或
#chmod a+x j2re-1_4_1_
#./j2re-1_4_1_
#rpm -iv j2re-1_4_1_
(2)进入相应目录,安装SDK
#
chmod a+x j2sdk-1_4_1_
#
./j2sdk-1_4_1_
或
#
chmod a+x j2sdk-1_4_1_
#
./j2sdk-1_4_1_
#
rpm -iv j2sdk-1_4_1_
更为详尽的安装方法请参见附赠软件中带的installation文件。
2.6 安装应用软件
安装完SureHA在开始配置之前,必须在两台服务器上预先安装需要由集群保护的相关应用软件(如Oracle, Sybase, Informix等) ,这样当主服务器宕机之后,备份服务器可以接管并继续运行相应服务。请确认需要受保护的服务可以正常运行和使用。
每台服务器必须安装由联想提供的SureHA应用程序。当安装应用程序软件时,数据应存放在共享磁盘的卷上。可执行文件也存放在共享磁盘的卷上。但是,如果需要的话,也可以将可执行文件安装在本地磁盘上。因此当主服务器宕机,备份服务器可以使用本地磁盘上可执行文件的拷贝继续应用程序,仍然能访问共享磁盘上的资源服务。
SureHA提供服务切换而不需要关闭任何服务器。指定应用程序将访问和配置的卷作为卷资源。用户可以在主服务器上开始安装应用程序。卷锁将阻止备份服务器访问卷。在主服务器上的应用程序安装完毕后,只在移交卷资源到备份服务器上时再安装应用程序,卷锁将阻止原来的主服务器访问卷资源。确认应用程序在运行前已完全安装并配置好。 第三章 管理工具
3.1 运行SureHA管理界面
使用JRE或JDK1.2以上的版本,所连网络中任何计算机都可以调用SureHA管理工具进行HA的配置和管理,当然首先必须参照前面的安装步骤设置密码和权限。
如果SureHA设置成手动运行,则两台服务器均必须通过$HAHOME/bin/hamond命令来运行管理软件,即:
# cd /opt/SureHA/bin
# export HAHOME=/opt/SureHA
# ./hamond
安装完毕第一次启动配置界面的时候必须手动运行hamond,以后每次重起服务器后,hamond会自动启动。Hamond启动之后就可以运行HA的管理界面,SureHA提供两种简便的管理方式: GUI图形界面和文本界面。