当前位置: 澳门新濠3559 > 服务器运维 > 正文

云计算时代会成为容错服务器的终结者吗,关键

时间:2019-11-18 21:29来源:服务器运维
但是随着云计算时代的到来,系统可靠性全部依赖于云。云计算通过计算资源池化,使得计算资源并不依赖于单一系统的高可靠性,通过集群技术,保证系统整体的高可靠性。那么,云

但是随着云计算时代的到来,系统可靠性全部依赖于云。云计算通过计算资源池化,使得计算资源并不依赖于单一系统的高可靠性,通过集群技术,保证系统整体的高可靠性。那么,云计算时代会成为容错服务器的终结者吗?

...

记者问:从用户的角度,永远要求系统高可靠低成本,这是一个可以协调的矛盾吗?  

澳门新濠3559,根据国际著名咨询机构IDC所公发布的数据:容错服务器可用性是99.9998%,消除单点故障的集群,可靠性仅为99.99%,而IBM的大型机为99.995%。就技术而言,双机只能保证写入硬盘的数据,不能够对缓存数据进行有效保护,双机系统当硬件出现故障进行切换时,是要产生停顿的,与此同时,双机切换有可能不成功,如此以来,对于医院的窗口单位而言,就会对正常的医疗秩序产生影响,甚至引发群体性事件,影响医院整体形象。有与之相比,容错产品支持任意硬件热插拔,包括主板、CPU等关键性硬件,外界并感觉不到切换,系统可靠性大大提高,同时因为系统具备纠错能力,系统更加稳定。如果说集群技术可以减少停机,那么容错系统的目标是避免停机,在相同的条件下,容错系统显然更加稳定和安全。需要稍加说明的是,小型机虽然也是一种选择,但这会增加成本,同时也对企业的技术人员提出了比较高的要求。

Stratus没有大红大紫,与这家公司的风格有关。Stratus是一个典型的技术公司,并不擅长市场推广。在国外,Stratus拥有忠实的客户基础,用户的技术水平比较高,不需要太多的市场培育和引导。只要用户需要高可靠性,就会采用Stratus或者其他品牌的容错服务器。国外用户不会在技术问题上纠结。与之相比,国内市场虽然发展很快,但市场需要培育和引导。这恰恰不是Stratus的强项。

为了应对服务器宕机,用户多采用双机系统冗余。当其中一个系统宕机时,由另外一个系统接替服务器工作。但是需要注意的是,双机系统很难实现无缝过渡,备用服务器接替工作需要时间。如果是首都机场小火车,就会出现停运的事件。春节期间,香港昂平360缆车故障,都在提醒我们,可靠性问题没有小事情。

云计算需要容错技术

买一台stratus容错服务器,得到的不仅仅是一个硬件设备,还有伴随的高可靠性、更精确运算以及更优性价比。

在技术上,借助“锁步技术”,容错服务器可以最大程度校正硬件故障。在容错服务器设计上,CPU、内存、I/O等,全部采用冗余设计,并通过锁步技术,对每个计算过程进行比对,准确无误才会进入下一个步骤。因此其系统的可靠性可以达到5个9的 水平。

从VMware的解决方案就可以看出结论,虚拟机环境下提升系统的可靠性,不是通过Vmotion,而是通过HA模块来提供的。所谓HA就是虚拟机环境中的双机冗余。同样的,HA的切换也需要时间。针对高可靠性的需求,VMware不是依靠HA,而是提供了Fault Tolerance模块,也就是类似容错机的解决方案。从VMware的选择,就可以知道容错较之双机具有更高的可靠性。

佘秀琍:硬件制造水平进步的确带来了产品可靠性的提升,从而减少了系统宕机的风险,与此同时也应该看到,对系统高可靠性追求依然没有停歇,无论是X86,还是小型机还是需要借助集群来提升系统的可靠性,此外,还可以通过软件的方法,分散风险,降低系统宕机影响范围。

在医院,7×24小时的不间断运行是对硬件与系统的考验,尤其是在关键业务上。上海中医药大学附属曙光医院曾使用stratus容错服务器很多年,信息中心刘珉主任说:对医院而言,信息主管最关心的是系统的安全稳定以及数据的准确性,在容错服务器中,由于采用冗余部件同时运行同一应用任务,这样当两个系统产生不一样计算结果时,系统就会察觉,并通过技术手段对于计算错误进行校验,从而提高应用的准确性。stratus容错服务器在我院使用的8年中,从未出现过停顿15分钟以上的故障,确实能够满足我们在关键业务上的需求。

...

Vmotion,也就是虚拟机在线迁移被寄予厚望。当虚拟机产生故障时,在线迁移到另外一台虚拟机。实际上,这是一种典型的误解。Vmotion可以解决计划内的停机,如系统维护、升级时,可以暂时将虚拟机迁移到其他服务器,维护升级完成之后,在迁移回来。此外,利用Vmotion的功能,可以在一定阶段,如晚间业务的波谷期,将虚拟机迁移到少数服务器,关闭多余的服务器,达到绿色节能,降低运维成本的目的。但Vmotion不能够解决计划外的意外宕机。但承载虚拟机的物理服务器意外宕机时,虚拟机是没有办法进行热迁移的。

容错服务器是惟一提供99.999%以上,接近99.9999%的超高可靠性的产品,可以确保系统每年的宕机时间不会超过5分15秒。这也是容错服务器备受信赖的原因。

澳门新濠3559 1
哥伦比亚大学基金会•上海德济医院信息主管张志翔

对于需要高可靠性的应用,仍然需要高可靠性的服务器。虚拟化并不能够解决高可靠性的难题。以VMware为例,高可靠性需求就需要采购Fault Tolerance模块,对于低一些要求的应用,需要采购HA模块。其中,Fault Tolerance类似容错,HA类比于双机冗余方案。

关键业务应用需要高可靠性,但是容错服务器并不是金融、电信计费的专利。在很多需要高可靠性的应用场合,容错服务器都有用武之地。以首都机场小火车为例,国际港旅客进出都要乘坐小火车。如此小火车的调度和控制非常关键,系统的计算量不大,但是需要高可靠性,就需要承担调度和控制任务的服务器具有高可靠性。在电力控制、钢铁企业都需要系统具有高可靠性。

——专访美国容错公司中国区总经理佘秀琍

同为美国stratus容错服务器代理商的上海显亮数码科技发展有限公司总经理周彬彬说,应用容错服务器后,相比其他方式的“救火”行为,容错服务器将医院信息化底层无法预测的硬件故障预防,管理人员可以将更多的精力用于其他软件的运作与维护,可大大减少运维成本。

IT已经告别百花齐放、万马奔腾的时代。曾几何时,王安、DEC、Compaq、SUN、SGI等这些响当当的企业已经淡出了视野。但是很奇怪,Stratus,这个容错机的代表,仍然好好的活着。从1980年Stratus诞生至今,几十年过去了,没有大红大紫,但容错服务器始终活跃。

如果你需要高可靠性,实际上,你就需要容错服务器。  

云计算、虚拟化和容错技术并不对立。相反,虚拟化技术应用必然带来对物理设备可靠性的高度需求,容错服务器的高可靠性恰恰是虚拟化理想的硬件平台。

澳门新濠3559 2
上海市卫生局信息中心高级工程师沈惠德

答案是否定的。对于很多.COM企业而言,特别是网站应用多采用分散式部署结构,不会因为单一服务器故障,影响这个系统的访问。实际上,在访问网站的过程中,每一个查询和访问,哪怕是同一个网站,提供后台服务器也很有可能不是同一个,所以,只有访问被分配到故障服务器,用户才会感觉得到。但并不是所有的应用都具备这样的特征。

采用虚拟机Fault Tolerance方案,还需要容错服务器吗?从原理上看,容错服务器的处理器、内存以及I/O全部是冗余设计,通过锁步技术,对软件每一个进程的计算结果进行比对,结果一致才确信处理的正确性,可以有效解决可能的硬件故障。虚拟机Fault Tolerance是否具有同等水平的高可靠性,还需要实践的检验。实际上,在虚拟化环境下,承担管理和调度任务的服务器,就需要采用容错服务器。

佘秀琍:从全球市场来看,对于容错技术需求仍然强劲,在美国,Stratus在金融、航空等很多领域,30多年来沉淀了一批忠实的客户,他们对系统可靠性要求非常高,我们给他们提供的机器,可靠性高达99.9999%,也就是6个9的水平,基本做到了全年365天高可靠运行。

美国stratus容错服务器代理商之一上海复高计算机科技有限公司副总经理马俊华表示:stratus容错服务器部署更简单,可以大大减少软件成本;安全更有保障,能有效地保护动态数据不丢失。上海复高计算机科技有限公司系统集成部总经理汪国亮说:如果采用双机冗余方案,需要购买两套操作系统、两套数据库产品,那么其总体的投资与容错服务器方案相当,而系统的可用性方面,容错服务器显然更具有优势。

Fault Tolerance是否具有容错服务器的高可靠性?现在谈论,为时尚早。对于云计算而言,云计算同样需要容错服务器作为IaaS平台。  

随着芯片技术的进步,以及生产工艺水平的提高,服务器产品标准化日趋成熟,如今系统的可靠性大大提升。可以说,服务器宕机是小概率事件。“小概率事件一经产生就是一个大事件。”某行业企业CIO说。

验证双机无缝切换最简单的办法就拔掉心跳线,不敢拔,所谓双机无异于摆设。与之相比,容错技术可以进行任意热插拔,在容错方案中,不仅对处理器进行保护,同时对内存、I/O都进行冗余保护,当其中任意冗余部件出现故障时,故障部件被隔离,相应环节进入单机工作状态,失去容错保护,待热插拔更换故障部件之后,系统恢复容错,期间不会有任何宕机事故发生。

在信息技术日新月异的今天,医疗机构越来越依赖信息系统来开展业务,对于门诊、临床等关键业务应用而言,提供7×24×365连续运营至关重要。目前大多数医院所采用双机热备、集群服务器在可靠性方面存在着不小的安全隐患,加之不少医院专业人员有限,在这种情况下,具有更高安全级别的容错服务器解决方案更加备受关注。

从商业利益考虑,软件厂商往往不会主动推荐容错技术。如果采用容错服务器,无论是操作系统、数据库,还是应用软件License的销售数量,较之双机冗余要减少一倍。因此,有人戏言,双机冗余方案是厂商的选择,容错方案是用户的选择。如果用户坚持采用容错,软件厂商就会表示支持,但是软件厂商不会主动推广容错服务器。微软如此,Oracle都是如此。

高可靠性总是与关键业务联系在一起。据统计,金融系统宕机所造成的损失为平均为1000万美元。因此,关键业务应用总是要求系统7×24小时不中断运行。对可靠性的要求高达99.999%,也就是5个9的水平,这意味每年宕机时间累计不超过5分钟。久而久之,具有5个9高可靠性的容错服务器总是和关键业务应用联系在一起。

对于ISV、SI来说,他们对于Stratus产品和技术非常了解,这些产品和技术可以给他们的软件产品提供最稳定的支撑,这意味着可以减少ISV和SI的支持服务成本。因为对于用户来说,如果采用其他方案,一旦出现宕机的事件,单纯依靠用户的技术实力往往解决不了问题,是需要ISV、SI来提供技术支持的。如果采用Stratus的硬件平台,可以彻底排除硬件因素,这就大大降低了技术服务的负担。ISV、SI可以集中精力解决由于软件带来的宕机问题,而这也是他们擅长的。因此,ISV、SI非常愿意与Stratus合作。

容错是指服务器对于错误的容纳能力,是应用过程中对于服务器稳定性追求的一个目标。为了这样一个目标,服务器集群技术、双机冗余服务器方案和单机容错技术这三种实现方法都在被使用。但集群技术、双机冗余服务器方案由于依赖于软件的特性,其设计更为复杂,并且维护成本较高,而容错服务器的思路就是把所有运算器CA)、控制器CC)、存储器M和输入/输出装置这些部件全部采用冗余硬件设计。两个部件共运行同一个任务,以此来提高系统的运行可靠性。这种冗余硬件的设计并不难,但是最为困难的是如何保证计算和数据在硬件中的同步Lockstep),这是美国容错技术有限公司Stratus)的核心专利技术,也是其驰骋容错技术领域30年不败的关键。 

如今,虚拟机倍受追捧。系统可靠性并不依赖于单台服务器的质量,而是构建在虚拟资源池的基础上,系统应用与物理服务器无关。在虚拟化时代,高可靠性的问题是否迎刃而解呢?

记者问:您觉得虚拟化、云计算对于容错技术是否构成冲击呢?

7×24小时不间断,stratus可以保证

佘秀琍:这是一个考虑问题的角度问题,对于很多业务应用,如医院,首先考虑的人命关天,并不是系统的高性价比。这些应用对高可靠性的需求是不打折的。以牺牲可靠性来换取性价比是没有意义的。

上海市卫生局信息中心高级工程师沈惠德很形象地将双机与容错进行了比喻。他说:如果将服务器比作人的器官,那么双机冗余像是器官移植,会出现“排异”的可能性,而容错服务器更像是自身的一套器官,不会出现排异,因此其安全可靠性更高。在他看来,医院信息化的不断推进对安全的要求更高,随着对医院等级评测要求的提高,也将推动容错服务器的发展。

热迁移的价值在于应对计划内停机,例如需要对某物理设备进行维护升级,这时候就可以通过热迁移把应用迁移走,升级完毕再迁移回来,这从一定程度上提升了系统维护的安全性。热迁移的另外的一个价值在绿色节能的贡献上,可以通过某种策略,在计算的波谷期对虚拟机进行相对集中,然后关闭多余的计算能力,从而达到节省能源的目的。

...

如今,中国用户对信息化依赖逐步加深,也带来了对高可靠性的需求,容错技术逐步得到重视,其高可靠性特点有望得到发挥。

1+1>2,stratus可以做到

中国用户对信息化依赖逐步加深,也带来了对高可靠性的需求,容错技术逐步得到重视,其高可靠性特点有望得到发挥。

目前,容错服务器推广应用还需要政府推动以及人们认知水平的提高。一个好消息是,越来越多的医院在选购stratus容错服务器,说明在医院的关键业务中,容错服务器更加适用。

佘秀琍:对于用户来说,应用系统是由硬件和软件共同组成的,Stratus专注在硬件部分,为了更好地服务用户,我们策略是采取合作伙伴策略,与ISV、SI合作,共同为用户提供专业化服务。在全球,我们有很多的合作伙伴,很多合作伙伴国际性的公司,他们在全球,也包括中国市场开拓业务,这些合作伙伴给我们带来很多的订单。与此同时,我们也积极寻找本地的合作伙伴,一起为用户提供最优质的服务。

澳门新濠3559 3
上海中医药大学附属曙光医院信息中心刘珉

中国市场策略

而现实是,双机应用仍然是现在的主流,凡涉及关键业务应用的领域,双机冗余都是一个重要的解决方案。但是双机冗余服务器方案不能够解决软件的故障。在实际运行过程中,有些时候数据库莫名其妙打不开了,在这种情况下,只有重新安装数据库,没有其他好的办法,而这不仅可能造成数据的丢失,也会在时间上无法满足医院的要求,这对医院是致命而不可接受的。

市场有利容错技术发挥

对于容错服务器而言,虽然在理论上存在着两个相同部件同时损坏的情况,但是随着硬件水平的提高,这种概率是比较低的。容错硬件的设计一方面可以防止硬件的单点故障,同时也可以防止硬件所造成的计算错误,并对此做出校正。

记者问:Stratus有30多年的发展历史,1990年Stratus就已经进入中国市场,作为容错领域的代表厂商,您怎么看目前的市场现状?

哥伦比亚大学基金会•上海德济医院信息主管张志翔主任介绍说:由于私立医院在人力等方面的投入较之大型三甲医院不足,因此在硬件上更希望能够尽量降低人力和维护成本,并能够稳定安全的运行。stratus容错服务器正好能够满足我们在硬件安全高效的要求。

很多业务应用,如医院,首先考虑的人命关天,并不是系统的高性价比。以牺牲可靠性来换取性价比是没有意义的。

美国stratus容错公司生产的容错服务器在一些关键性领域里应用非常广泛,例如:电信、机场、银行、冶金行业、安全、医院HIS系统、公安、电力行业、大的零售业等一切要求高可用性的行业。 

Stratus公司长期专注在容错服务器这个领域,经历了这个领域的时代变迁。这样的一个产品,20年前很贵,因为它是构建在专属平台上的,虽然可以提供很高的可靠性,但价格不菲。大约13年前,Stratus开始对产品进行转型,从专属平台过渡到开放的平台,选择X86处理器和Windows系统进行支撑,如此就大大降低了成本,降低了容错服务器的门槛,在保障高可靠特性的同时,拉近了与用户的距离。

如果双机方案切换时间为0,所谓无缝切换,那么系统累计宕机时间与系统可靠性是一致的,但现实的情况是,双机方案很难实现0时间切换。系统切换如果失败,那么系统恢复就需要借助备份等其他技术手段,系统恢复时间有时候难以预料。

佘秀琍:以虚拟化为基础的云计算应用首要解决了资源效率的问题,通过资源池化,把系统的能力充分发挥。因此虚拟化首先解决的是效率,并不是可靠性。与此同时,虚拟化也提供了热迁移技术,对提升可靠性带来一些帮助。但这种帮助并不能够用来针对意外风险,如物理设备宕机。如果物理设备意外宕机,内存、I/O中的临时数据都会丢失,在这种情况下,热迁移是没有办法进行的。

容错服务器是真正的无缝切换设备,99.999%以上,接近99.9999%的超高可靠性,可以确保系统每年的宕机时间不会超过5分15秒。这也是容错服务器备受信赖的原因。

我们也在考虑针对中国用户,提供完全本地化的服务,从而全面提高我们的服务水平,满足中国用户的需要。

澳门新濠3559 4 51CTO专访美国容错公司中国区总经理佘秀琍

中国经济的发展,让中国更多与国外接轨,在这个过程中,用户对系统靠性的要求越来越高,这就给容错技术带来很多的机会。对于Stratus而言,在继续提供高可靠产品方案的同时,也考虑在不牺牲可靠性的前提下,尽可能降低用户的成本。Stratus从Unix平台,迁移到X86平台,主要的考虑就是降低成本,扩大受众规模。如今,Stratus所提供的ftServer容错服务器产品,全部基于X86平台,仍然可以提供99.9999%高可靠性。当然,我们仍然确保对老用户的技术支持,不会抛弃任何老用户。

云计算、虚拟化和容错技术并不对立。容错服务器的高可靠性恰恰是虚拟化理想的硬件平台。

从中国市场来看,对容错服务器的需求与日俱增。以往,用户主要集中在银行、证券等少数领域,因为这些用户的业务应用对系统可靠性要求非常高,只有容错技术可以满足需求。此外,这些用户的业务对于信息化系统高度依赖,信息化程度非常高,容不得系统有任何闪失。系统可靠性是这些用户首要考虑的,然后才会是成本。

记者问:从市场拓展角度,Stratus的策略是什么?

高可靠性和成本

容错技术市场定位

对于小型机而言,仍然是一个很贵的产品。由于小型机单机可靠性超过X86,因此小型机双机方案优于X86双机,但其可靠性也只有99.99%,也就是4个9的水平,每年宕机时间不会超过53分钟,似乎是可以接受的数字。但需要注意的是,这只是代表机器出错的概率,并不是系统累计宕机的时间。这就可以解释为什么有些系统故障,动辄2~3小时无法恢复的原因。

中国是Stratus最重要的市场,公司非常重视对中国市场的投入,我们在中国已经有20多年的发展历史,产品也非常适合中国市场发展的需要。2013年,我们将继续加大中国市场的投入,加强与合作伙伴的合作,提高合作伙伴的数量和质量。与此同时,我们也将加强对ISV、SI的培训和技术支持。在全球,我们针对Stratus产品提供7×24×365主动监管服务,及时发现硬件的潜在问题,主动更换硬件故障部件。在中国,考虑到中国用户的敏感性,我们会尊重用户意见,同时我们也在考虑针对中国用户,提供完全本地化的服务,从而全面提高我们的服务水平,满足中国用户的需要。

51CTO传媒副总编常疆

记者问:随着硬件制造水平的不断提升,产品可靠性提升明显,从x86到小型机、大型机,用户可选择的方案很多,因此应该如何为容错服务器来定位?

随着中国经济对信息化倚赖程度不断提高,如何为经济发展提供一个高度稳定可靠的信息化基础支撑平台已经变得非常迫切。对此,有很多选择,大型机、小型机和X86都是备选技术,特别对于云计算,业内也给予了厚望。但是在此,特别值得注意的是已经有近40年历史的容错技术,恰逢美国容错公司中国区总经理佘秀琍从香港来京,笔者有幸对她进行了专访。

编辑:服务器运维 本文来源:云计算时代会成为容错服务器的终结者吗,关键

关键词: