当前位置: 澳门新濠3559 > 服务器运维 > 正文

而应该经常更新服务器的FIRMWARE及BIOS,服务器核

时间:2019-10-12 21:42来源:服务器运维
硬件故障是指服务器硬件出现异常而导致的各类错误。由于服务器构成比较复杂,因此在检查的时候必须认真、仔细。下面以一台惠普LH6000为例说明。 服务器软件故障是在服务器故障中

硬件故障是指服务器硬件出现异常而导致的各类错误。由于服务器构成比较复杂,因此在检查的时候必须认真、仔细。下面以一台惠普LH6000为例说明。

服务器软件故障是在服务器故障中占有比例最高的部份,约占70%,解决的过程必须更加深思熟虑。导致服务器出现软件故障的原因有很多,最常见的是服务器BIOS版本太低、服务器的管理软件或服务器的驱动程序有BUG、应用程序有冲突及人为造成的软件故障。下面分别举例说明各类软件故障的维修方法。

可能对英特尔和AMD两大芯片巨头的产品如数家珍,从之前的至强5400到主流的至强5600、至强7500,以及AMD强劲的12核心x86处理器“Magny-Cours”(马尼库尔)等等。同时,服务器的另外两个核心在CPU的基础上作用不容小视,以带ECC、ChipKill、热插拔技术的内存,防止数据异常丢失的RAID硬盘等组件共同打造出一个坚若磐石的X86服务器。
 
但由于X86服务器和台式机有着很多相似之处,无论是从前期部署、中期维护到后期管理都有着众多相似之处。因此,X86服务器尽管有着成熟稳定的架构体系,也不免出现“罢工”。特别是企业负载应用得多了,遇到的故障是很平常的事情,以三大组件出现的故障与大家共同分享,可以有效避免大家在以后的业务平台上出现。  

有一台惠普LH6000,配有256M内存,使用一个PIIIXEON700带2M高速缓存的处理器。开机后没有任何显示,但系统日志上提示了一条CPU电压为0伏的信息,系统指示灯三灯不停在闪烁指示灯三灯闪烁是服务器的另一种报警方式,我会在文后说明)。这种错误一般是处理器电压调节模块VRM)出错或CPU出错或CPU与CPU板块接触不良,但也可能是CPU板块出错,这时情况就比较复杂了,必须经过认真慎重的思考。因为CPU板块在整个服务器中,占有举足轻重的地位,如果它出错服务器是会报致命错误的,并且在系统日志中会提示致命错误,但报CPU电压错的情况也有5%左右。我们立刻把CPU调换在另一CPU插槽中,开机后依然是刚才的那种故障。所以在初步判断中,可以排除是CPU板块坏。

有一台HP LH6000R服务器,配置为双PIII XEON 700带2M高速缓存的CPU、512M内存。开机后,系统日志报电压调节模块异常VRM)的错误,报错的信息是:“Voltage Regulator Module (VRM) over/under-voltage 2.88V/0V”。从表面来看,极有可能是服务器的电压调节模块或其它硬件出现故障,极容易导致维护人员认为是硬件故障。维护人员立刻使用其它LH6000R上的硬件来测试,发现即使使用新的配件,此服务器依然报VRM错。就在一筹莫展的时候,维修工程师带来了最新的CPU管理板CPU Management Control)的固件FIRMWARE),于是升级了CPU管理板块的FIRMWARE后,服务器恢复立即正常。

图片 1

这时,取出CPU仔细擦拭金手指,以及CPU板块中与CPU接触的地方后,开机依然无显示。

FIRMWARE升级方法是,在服务器的NAVIGATOR导航光盘)中提取CPU管理板CMC)FIRMWARE的刷新程序,程序为FLASH.EXE,然后将从网上下载的LH6KC.BINCPU管理板的FIRMWARE)拷贝到一张DOS启动盘上,用这张盘启动服务器。然后在DOS下运行”FLASH /CMC A:LH6KC.BIN”,刷新完成后重新启动服务器后即可。这种升级方法也适合刷新系统BIOS等,只是FLASH命令的参数不同以及更新FIRMWARE及BIOS文件名不同,参数请参考服务器的说明。

服务器核心——CPU
 
危害程度:★
 
故障回放:做过测试的朋友知道,一台基于Intel至强服务器,开机无显示,系统指示灯疯狂的闪烁,最直接怀疑是CPU与主板的接触不良,但将其更换到多路服务器主板的另外一个CPU插槽之上,依旧没有反应。
 
解决方案:在这种状况下经测量,CPU电压居然出现异常,原来是CPU的VRM(Voltage Regulator Module,电压调节模块)出现了故障,不能执行主板上DC电路转换,无法为CPU提供稳定的工作电压,至此只能更换CPU。
 
笔者认为这个故障是比较致命,CPU的损坏将直接导致整个服务器的不可用,但是CPU本身的安全性是非常高的,故障率极低。所以在日常维护任务中,由于CPU的损坏导致的服务中断情况是较为少见,它的危害程度不算太高,如果是多路服务器更是不用担心CPU损坏而带来的服务器宕机了。
 
服务器平台的另外两大核心,莫过于内存和硬盘,具体到内存的选择上,服务器内存与普通台式机内存还是有一些差异的。仔细观察过服务器内存的用户会发现,相比普通内存单面8颗粒的设计,服务器内存通常单面有9颗芯片,这就是我们常说的ECC内存。  

相对处理器坏的情况来说处理器电压模块VRM)出现故障的情况比较大。于是立即在另一台LH6000中取下一个处理器电压模块,安装在此服务器中。开机后,服务器依然没有任何显示,系统日志上依然提示CPU电压为0伏的信息,系统指示灯三灯依然不停在闪烁。这时的情况就比较明显了。于是立即从另一台LH6000中取下一个CPU安装后,开机正常。

任何一款服务器的FIRMWARE及BIOS都会有不同的BUG,因为BUG在所难免,所以我们不能错误地认为服务器的BIOS程序就很完善,而应该经常更新服务器的FIRMWARE及BIOS,只是在升级之前应该小心谨慎,错误的升级方法会导致严重的后果。

图片 2

在服务器的维修中,线索都会显得扑朔迷离,一般来说不可能一次就可以准确地判断出问题的所在。这样就要求相关人员要有信心及耐心。出现错误一般的流程是通过系统日志上的信息来解决,如果没有解决问题再找出其它因素,然后再看日志信息。总之,服务器出错后,必须一步一步解决,没有捷径可言。

目前流行的中高档服务器都拥有强大的管理程序,为客户提供了方便的管理途径;服务器也拥有各种操作系统下的驱动程序,方便了客户在各种操作系统中的使用。但是,世上任何一款程序都会有一些BUG,这些BUG将影响用户使用。但是服务器厂商总是会在第一时间内开发出新的程序,客户只需要及时更新这些程序就可以避免这类故障。

服务器读取性能——内存
 
危害程度:★★☆
 
故障回放:之前在一台安装2条2GB内存的服务器上,由于自身承载的服务过多,服务器的处理数据的速度越来越慢,于是,通过增加2条同型号的内存条来升级服务器。将这些内存全部插入主板后,系统检测只有6GB,另外2GB内存神秘消失,反复的插拔新的内存依旧无法正常检测。
 
解决方案:通过服务器产品官方网站了解,该种情况是因为该服务器的内存插槽是配对使用,1-4、2-5、3-6、7-10、8-11、9-12,新内存插在了2、3槽,无法形成配对,自然只能检测出一条内存,将内存插到5槽,8GB内存顺利被检测。
 
可见,服务器内存的优势不仅仅体现在性能上,在容错能力同样投入很多精力,目的是为整个平台提供高稳定环境,之前提到的内存采用的ECC(错误检查和纠正)技术、Register、Chipkill都是为了提高内存的稳定性,使各个内存条和插槽之间能更好的融合。
 
作为服务器存储终端,硬盘的稳定工作关系到企业数据的安全,服务器硬盘就是这个核心的数据仓库,所有的软件和数据都存储在这里,因此服务器硬盘对可靠性和稳定性有着非常高的要求。
 
另外,服务器一般需要24*7小时不停的运行,其硬盘也要24小时不停的运转。因此,服务器硬盘对稳定性和可靠性有着很高的要求。服务器市场上采用的硬盘主要有三种,SATA硬盘、SCSI硬盘以及SAS硬盘,其中SATA硬盘主要应用在低端服务器领域,而SCSI和SAS硬盘则面向中高端服务器。  

...

当服务器的软件故障为此类时,表现的现象也不尽相同。一般来说,管理程序BUG会导致系统速度变慢,CPU占用率变高,无法正常使用某些功能等;驱动程序的BUG会导致死机、与某些软件有冲突,磁盘工作不稳定等。查看管理程序是否出错的最好的办法就是在系统中首先禁止此类管理工具,再观察服务器是否还是异常。由于管理工具是随着系统启动而启动的,所以应首先避免它的启动。以WINDOWS NT4为例,就首先在管理工具服务中禁用某些服务器软件服务,再修改注册表中的启动项即可。如果是驱动程序有问题的话,就以安全模式进入系统,看是否正常。但是需要注意的是,在安全模式中,系统速度变慢是正常的特别是磁盘I/O方面)。

图片 3

服务器的管理人员就应该经常在服务器网站上下载最新的管理工具程序及驱动程序。这样会减少很大一部份软件故障的发生。

服务器存储核心——硬盘
 
危害程度:★★☆
 
故障回放:每台服务器会出现死机、无征兆的重启,如果频繁出现,就会经数据中心IT运维人员进行检测后发现是硬盘工作时间太长,出现了物理坏道。于是立即将硬盘做备份和更换是最佳解决办法,将硬盘内的数据导出,结果在转移数据的过程中,不停地弹出I/O错误,这直接导致数据转移的速度非常慢,且丢失了很多重要数据。
 
解决方案:这种情况多数是磁头或者盘片出现了错误。如果拆开硬盘盘片出现了划伤,但面积并不大,通过专业的公司可以通过更换磁头后重新恢复数据,恢复了95%以上的数据,这种情况相对来说比较幸运。
 
但通常说防患于未然,如果这个故障发现的及时,在盘片没有出现更多物理损伤前予以解决,一旦等到盘片损坏严重,数据将永久性丢失,为了避免这种状况的发生建议做到以下:
 
在硬盘选择上,要专业的服务器硬盘,比如:平均无故障时间超过1600000小时,年故障率低于0.55%,抗震方面要有300G/2ms的以上的耐冲击能力等等,此外应用相关服务器RAID阵列技术,比如:RAID5,它由至少3块硬盘组成,在向硬盘写入数据信息的同时,还写入校验信息,当其中有1块硬盘出现故障时,可以根据算法从另外2块硬盘上得出这块故障硬盘的数据,安全性大大提高。
 
以上三大组件的故障仅仅是抛砖引玉的简单介绍,其实在服务器故障方面不仅仅限于这几点,在电源、管理模块以及网卡方面也有类似的问题,希望用户在应用中多多积累经验,尽可能减小故障的发生率,提供一个稳定灵活的IT应用环境。

相比之下,软件冲突造成的故障判断比较困难,需要管理人员有比较丰富的经验以及敏锐的观察力。

...

曾经有一位朋友告诉我说,他有一台浪潮的服务器无法安装SQL SERVER 2000,已经重装N次NT了,排除是系统故障。而这唯一的服务器又将作为非常重要数据库服务器,因此非常着急。于是我陪着朋友去了他的公司查看。这台服务器所在的机房是非常标准、完善的机房,我检查了这台服务器的情况,发现并没有硬件上的故障,于是排除了光驱读盘力差的可能。但是,朋友刻的SQL SERVER 2000光盘引起了我的怀疑,我让他拿出了正版的SQL SERVER安装,结果还是不行。在安装的过程中,没有出现丝毫错误,可就是在运行的时候会自动退出,没有任何提示。但是,我在管理工具中的事件查看器的系统日志中却发现了一条信息:windata.exe导致一个无效的数据溢出。Windata是朋友自己编写的一个程序,而且是随操作系统启动而启动的程序。我立即结束掉这个进程后,再运行SQL一切正常。

对于此类软件故障,操作员最好先查看有关的日志,看看系统中是否有可疑的进程。目前的服务器无论是高端还是低端,对于SQL等标准程序的支持是相当可靠的,所以排除的重点就是结束可疑进程。

还有一种软件故障是人为因素造成的,它一般是人为误操作包括没按操作流程的操作)、意外关机包括电源突然不供电)或非正常关闭应用程序造成的。

人为误操作因素只要加强管理都可以避免此类故障发生。在这里就详细说明意外关机或非正常关闭程序造成故障的方法。

正常关闭系统程序非常重要,尤其是WEB服务器。我的一个朋友就是因为没有正常关闭系统程序而经历了一次数据损坏甚至丢失的经历。我的朋友是使用的HP web hosting server appliance,因此我向他提供了一些使用规则。

这些方法对于服务器的维护非常有效,主要包括了正确的关闭系统程序、怎样避免数据丢失以及非正常关闭系统后的恢复方法。下面以我朋友的HP web hosting server appliance为例使用的是UNIX,但思路对于其它操作系统均有效)。

...

编辑:服务器运维 本文来源:而应该经常更新服务器的FIRMWARE及BIOS,服务器核

关键词: 澳门新濠3559