当前位置: 澳门新濠3559 > 服务器运维 > 正文

IT运维工程师会习惯使用监控工具,如果是网络发

时间:2019-11-08 03:17来源:服务器运维
IT运维工程师之间一直流传着“不怕坏,就怕慢”的魔咒。如果是网络发生信息不通、网页不能浏览等连通性故障,运维排错的任务并不困难。可当网络连通性并无问题,业务系统的响

IT运维工程师之间一直流传着“不怕坏,就怕慢”的魔咒。如果是网络发生信息不通、网页不能浏览等连通性故障,运维排错的任务并不困难。可当网络连通性并无问题,业务系统的响应和访问速度却在一步一步变慢,IT运维人员就很难处理这种“软故障”。

在国家“创新驱动”发展战略指引下,各个行业利用IT技术创新变革的情形四处涌现,虚拟化、云计算和大数据应用水平持续提升,自主可控的IT生态环境逐步完善。针对 “国产化”、“虚拟化”、“业务管理”等全新运维需求,以北塔软件为代表的国内IT运维厂商紧抓创新机遇,围绕用户应用需求构建新一代运维产品的功能,从而推动了广大企业用户运维服务水平的持续领先。

作为世界上华丽的舞蹈--华尔兹享有"舞中之后"的美称。华尔兹速度虽慢,但技艺难度却很大,不仅要先练好基本步,更要在此基础上学习各种变化步、花样步以及组合和套路。

IT故障管理:亡羊补牢,不如未雨绸缪

随着BYOD、云计算、大数据等新一代IT技术的发展,企业信息化应用变得更加得心应手,但IT运维管理的压力似乎并没有减轻,反而面临更大的挑战。对于IT运维主管来说,一场IT重大事故的发生,不仅会让部门员工士气低落,更容易让上层领导怀疑IT部门的领导力和执行力。因此,针对IT故障管理,更多希望改善自身状况的IT部门,开始选择主动性的事前管理模式,而非被动式的亡羊补牢。

英雄难过“故障关”

IT在很多时候都会充当幕后英雄的角色,可如今的职场生存环境,对心脏不强健的运维主管来说则是一个噩梦。

一方面,作为公司的最高管理者,他们希望IT的能力越来越强大,变成无形的力量,因为IT能消除公司内部的摩擦,并且削减每笔交易的成本。另一方面,你永远不要相信他们可以做到绝对的平衡,如果重大的系统故障给整体收益带来了影响,公司就会强调这个原因,强调公司发展受到了IT的拖累。

那么,IT故障是否能够彻底消除呢?答案是否定的。任何系统都有出现故障的时候,它可能发生在IT资产生命周期的任何一个时段,包括了硬件、软件和不可抗的自然因素。为此,企业必须要为自身定义一个可以接受的故障管理目标,将IT基础设施故障对业务的影响减到最小,并防止与这些错误相关的事故再度发生。

如果单从故障管理的目标来看,人们力求找到引发事故的根源,然后才着手改善或纠正该情况。“这种做法固然无错,但却没有行走在IT运维管理最佳的流程上。

对此,北塔软件表示:“故障管理的流程具有被动和主动两个方面。被动方面是作为对一个或多个事故的反应而解决问题,而主动的“故障管理”是指在事故发生前确定并解决问题和已知错误。所以说,即使你现在‘救火’的事情再忙、再多,也应当去思考,并且马上行动起来,因为这种工作状态非但不能给IT部门带来改变,反而陷入一个恶性循环当中。

“两步走”实现未雨绸缪

如今,企业的IT架构被多种新兴技术改造,并与业务深度融为一体。这带来了极度复杂的管理机制和故障发生机率,迫使IT部门不能满足于传统的故障识别及修复工作,而需要走在问题的前面。

未雨绸缪的益处世人皆知,但又要从何入手呢?针对这个问题,北塔软件建议用户采用如下两个步骤实现“质变”:

◆ 第一步:基础设施监控“泛化”

之前,由于网络的庞大和后续累加,你可能无法知道IT系统中每个关键应用承载设备在哪里,甚至不知道这些设备连接的应用在哪个端口上。这时的IT运维管理就等于“盲人摸象”,连最基本的“救火”都无法实现。所以,在这个阶段,便需要利用具备手动或自动发现功能的运维工具,迅速搜索整个网络内的所有节点,实现整个网络的真实物理拓扑图,实时反映出整个网络的运行状态。

澳门新濠3559,需要注意的是,在云计算或虚拟化运行环境中,传统的运维工具已经无力支撑这个目标。此时,用户可以采用北塔BTIM等具备自动感知虚拟和物理环境的新一代运维平台,将虚拟交换机和虚拟机以“实体连接”的形式存在于监控场景中,自动追踪数据和虚拟机漂移后的性能指标。

◆ 第二步:业务管理“透明化”

一套业务系统的可用性,取决于每个基础设施对象之间的配合和稳定,但之前的基础监控数据对于整套业务系统又能起到什么帮助呢?

在完成全网监控的目标后,用户可以利用北塔BTIM自动对监控数据从业务角度归类整合,让所有业务关键参数醒目地投射到业务架构上,实时反映业务运行情况。业务视图的构建,可以对外向业务部门,对内给自身管理都提供透明化管理,能够非常清晰地反应出业务系统的健康指标。而透明化的监控业务系统运行起来之后,能够事前发现可能引起系统宕机故障,或者访问质量无法保障的问题,把可能发生故障的隐患消除在萌芽状态。

IT运维要给创新“留时间”

主动运维、事前运维,这些具体工作实际上都在围绕着“预防性检查(PM)”展开,旨在提高系统的可用性、稳定性。而IT部门的价值若想进一步体现,就不能总围绕“救火员”的角色。因此,未雨绸缪的最终目的还是解放人力。

对此,北塔软件表示:“追求IT创新不仅需要灵感,更要时间。用户还可以利用北塔BTIM中的‘业务仿真、自动巡检’等功能替代人力操作,主动找出可能会影响系统可用性和性能降低的原因。在这个平台上,看似是一张简单的业务管理门户图,但却可以紧密联合并改善IT与业务部门之间的关系,在沟通中激发IT创新的灵感。”

随着BYOD、云计算、大数据等新一代IT技术的发展,企业信息化应用变得更加得心应手,但IT运维管理...

对此,作为国内领先的IT运维管理专家,北塔软件认为:管理员应最大限度的保障数据中心的运行效率,不能让“软故障”成为阻碍用户应用的屏障。管理者应站在业务应用的全局角度上指导运维细节,建立业务系统与基础网络的映射关系,使用更先进的IT运维管理分析方法和手段,尽量缩短排除故障的时间,进而提升服务的质量和用户的体验效果。

全面国产化的“推力”

BSMBusiness Service Management,即业务服务管理)的理念是从企业业务角度出发,来重新认识IT对业务的整合,是IT创新管理的风向标。BSM可以称为IT运维管理领域中的"华尔兹",与华尔兹一样,因为它同样也具有了看似质朴简单却又高贵深奥的特质,所以广受一线IT运维人士的认同。它是打造一流的运维管理体制,是实现从优秀到卓越的关键,但BSM不是一蹴而就的。因此,企业在落实BSM前要形成一定的基础条件,也就是要先掌握最基本的舞步,然后才能倾听业务部门的节拍,将BSM充满活力地舞动。

案例分析:被“怪病”缠身的服务器

“棱镜门”事件给蓬勃发展的中国信息化进程敲响了警钟。由于信息泄密的风险威胁并未消除,涉及国内公众信息或是行业机密的业务,必须挑选自主可控的硬件和软件产品,以保证国家的信息主权与信息安全。为了加速打造自控可控的IT产业链,我国政府在芯片、主机技术、网络设备、操作系统、数据库、中间件等多个领域进行了行业扶持,并在采购政策上调整力度非常之大。因此,许多用户原有的IT运维平台开始在两个方向调整:运维对象国产化和运维产品国产化。

笨拙的舞步会踩踏业务主管的脚面

小刘,是一家大型企业的运维工程师,但他最近遇到了一种“网络怪病”。业务部门反映,已经上线4年多的CRM(客户关系管理)系统常常出现访问异常缓慢,用户终端需要反复刷新页面,有时还会出现彻底无法访问(访问超时)的问题。另外,还有些业务人员反映,在更新用户联系信息后,已经被更改的用户资料并没有得到更新。而且,这些问题已经被反映到集团老板那里,IT运维部门的领导带着一脸沮丧,要求他迅速查出原因,因为CRM系统的“怪病”严重影响了公司业务处理的效率。

对此,行内专业人士认为:“在关键系统以及核心领域中使用的国外产品,像是深埋在我国信息化系统中的“遥控炸弹”,给我国信息安全带来很大的隐患。“IT基础设施管理专家北塔软件则认为:”IT运维管理软件在企业网络架构中拥有绝对的超级权利,它可以在底层监控和收集网络中的所有信息,即使发生数据泄露,用户也很难发觉。另外,IT运维管理软件本身也会有升级,一旦厂商触及或接管运维系统的管理权,用户则很难保障核心数据不会造成泄露。“

作为国内领先的IT运维管理专家,北塔软件在协助电力、政府、金融、电信等4000家用户进行IT运维管理最佳实践中发现,绝大多数的企业深知BSM可以帮助他们改变在公司中的地位,但由于IT基础设施没有实现牢固的监控架构,IT部门的舌尖上也就无法品尝到BSM的美味了。因为主动运维的模式未能落实,假若销售业绩出现问题时,业务部门还会以系统故障,或是网络缓慢为由"起诉"IT经理。但若反过来想,这些投诉是有理由的,又有谁在一场舞会上被舞伴踩了N次脚面之后,不会埋怨几句呢?

小刘采用的多种方法开始排查故障的源头,例如:业务部门PC终端故障、检查服务器端的性能、找程序开发人员挖BUG、检查数据库、检查交换机、给服务器杀毒、翻阅之前的所有日志、架上流量监控软件……花费了大量的时间,最终也只是找到故障根源可能存在的方向。因为在拔掉交换机上链接服务器的线缆后, FCS帧就会瞬间减少。这应该是网卡损坏(包括协议、驱动、硬件)故障或者连接服务器的网线(包括RJ45头)部分出现了问题,但排除问题所消耗的时间实在让人无法忍受。

针对政策导向和用户实际应用环境的改变,北塔软件在全新升级的北塔BTIM 3.6版本中,加大了对国产组件的研发投入,全面支持了麒麟Linux操作系统、达梦数据库管理、CICS和Tongweb中间件等国产化产品的运维监管,适应了行业用户对于国产化软件进行统一运维管理的发展趋势。

尽管IT运维管理技术在不断进步,但实际上,很多IT运维工程师并没有真正解脱出来,我们可以将传统的IT运维管理简单概括成四个字叫:"人拉肩扛"。因此,在BSM实施之前,企业要做的第一件大事就是解决设备层面的监控和预警难题。因为当涉及到今后的业务管理时,底层监控数据的分析结果,是对业务系统的运行状况最有说服力的。要改善这一状况,国内IT运维管理专家"北塔软件"举例说:IT部门需要把网络、路由器、交换机、服务器等纳入到北塔BTIMBetasoft Integrated Management,IT综合管理软件)平台上进行管理,保证其运行不出问题。通过IT基础设施管理服务的建设,IT部门有能力提供7X24小时全天候对服务器、网络和数据库进行监控。IT运维工程师会习惯使用监控工具,而不是手工打理,他们每天都会遵照和运用基础设施运维管理工具发现问题、解决问题、优化系统,并依靠ITIL方法论逐步对应出合理化的流程。

北塔软件认为:虽然小刘已经知道了“方向”,但这种拖延的后果,无疑还是把矛头指向了IT运维部门的服务质量。业务系统反应越来越慢的现象,对于系统维护部门的压力将直接集中在故障恢复的时效性上。因此,IT运维管理应该利用主动发现的智能机制,以业务为核心建立一体化的管理体系,才能避免这种“软故障”在数据中心的为非作歹。

云和大数据应用的“支力”

业务视图为IT与业务融合搭好舞台

北塔BTIM三步解决“软故障”

云计算和大数据的发展使得业务创新可以随时随地展开,而IT运维管理者则需要为这种全新的变化觅到正解。大量虚拟化技术催生了随时发生的动态变更,这带来了IT运维管理中的新需求。当数据中心采用虚拟化技术后,解耦了物理设备之间一一对应的关系,虚拟主机可以位于服务器集群中的任何计算节点或存储设备上,这使得虚拟机和存储设备的性能、容量等关键信息成了运维中“黑匣子”。因此,虚拟化的可视化运维将是解开“黑匣子”的关键,也是实现云计算和大数据平台运维体系的基础。

没有舞伴而空有一身舞技,就像藏在黑暗里的宝石般令人遣憾。BSM就好比双人舞,舞伴之间的默契配合就非常重要。某企业的一名IT部门主管曾经冥想:"业务部门的人70%懂自己的业务,30%懂IT,这样他们就清楚先进的IT技术如何帮助业务提高效率、创造价值、或改进业务流程;IT部门的人70%懂IT,30%懂业务,这样他们就明白业务部门的困境、苦恼、竞争压力,从而提出好的解决方案,这样就可以进入一个良性循环。"不过这是一种非常理想的状态,通常这也只能算是乌托邦而已。那么,IT运维管理就真的无法实现与业务部门的融合了吗?

业务系统是一个整体,造成其缓慢的原因会由多种因素组成,如果利用OSI模型排错,一层一层的来,势必影响故障定位的效率。那么,利用支持业务服务管理(BSM)的工具是否能够实现更简单有效的故障分析呢?下面以北塔BTIM(Betasoft Integrated Management,IT综合管理软件)为例,看看另外一种解决这种软故障的方式:

为了顺应运维大环境的巨变,北塔软件业内首创了虚拟化环境中的“物理拓扑”,采用手动和自动更新设计,不论虚拟机如何迁移,都会让管理员可以清晰地描述出它们的具体位置、健康状态。用户通过北塔BTIM可视化运维环境呈现,可以看到虚拟交换机和虚拟机以“实体连接”的形式存在,以传统的物理链路运维形式展现虚拟交换机与虚拟机线路的性能指标,如:流量、数据包数、广播包等等。

针对这个问题,北塔软件副总经理孙永杰先生认为:"按照一般公司的部门分工,业务部门主要负责业务软件部分的故障,当出现非软件问题时,均有IT部门进行排查,而传统上IT部门会根据网络、服务器、基础软件各个传统分类进行问题的排查,越是分工明确的公司,每个独立的设备都会有专人维护,那么在这个故障排查的过程所花的时间就会越长。而引入BSM后,IT部门以业务为视角,将业务所关联的网络、服务器、基础软件的端口等一目了然的规划在一张图形上,快速定位故障点,这样就能实现及时处理投诉,提高业务部门的满意度。"

第1步:利用北塔BTIM,分别对监控对象设置事件触发,特别是性能阀值监控这些最容易出问题的地方,形成设备层面的性能监控;

面向业务管理的“活力”

此前,由于企业已经可以从IT基础设施综合管理平台,以一致的方式来展示每个子系统的事件信息,并能够与配置管理平台CMDB)紧密融合。所以,现在可以围绕企业的关键业务,借助动态的业务与系统之间的映射视图来引入服务水平协议SLA)机制。在此阶段,可以利用BTIM中的构建业务视图,非常清晰地看到业务架构、业务运行、业务使用、事件原因分析、业务统计与分析。这种整合后结果,可以顾及业务系统全面的工作状态、运行效果以及与之直接或间接相关的各个方面,如:业务系统整体机构的吞吐量、机房环境影响等等。

第2步:把业务系统涉及的每一个对象都合并起来,将所有运维监控对象按照业务访问路径综合起来,形成综合业务视图,并让让整体性能和用户体验关联起来。

创新驱动是我国经济发展的必然和持久动力,作为创新思想的主要技术手段和落地工具,网络只有向着更强大、更安全、更智慧的方向不断前行。但在IT基础设施基本完成,IT运维工具可以帮助管理人员发现问题、排查故障之后,IT运维创新的难度也会越来越大。此时,由于多数业务系统都需要7*24小时持续运行,需要在虚拟化和云架构中随时调整和优化,这就决定了IT运维管理必须围绕着业务管理进行再创新。

舞者最高的境界是懂得音乐所描述的内涵,而我们的IT运维管理,最重要的就是要听得懂业务部门的心声。BSM让业务部门和IT部门能够拥有统一的管理语言、管理视角。结合企业战略和目前业务运营情况,辨识企业业务服务需求,特别是关键业务应用。扎实的舞步基础,再加上与舞伴的心灵沟通,我们最终会实现实施BSM的预期目标。  

第3步:北塔BTIM会智能的发现业务系统缓慢,第一时间通知管理员,而“BTIM故障根源分析策略”便可帮助管理员依据实体业务流分析逻辑,逐层扩大数据采集的深度和广度,层层深入,直达故障根源。

作为国内领先的IT运维管理专家,BSM理念的推动者,北塔软件的创新思想和产品在国内超过5000家企业用户的实践中得到肯定。针对IT运维管理的“再创新”,北塔软件认为:在无处不在的“创新驱动”之中,只有面向业务的运维创新,才可以顺应业务部门不断的变更与创新需求,才能进一步提升IT部门在企业中的价值。因此,我们建议用户可以利用北塔BITM等具有业务视图和综合管理功能的产品,将IT资源做到透明化管理,然后对这些资源的服务需求综合评估并实现流程化、协议化。这样的结果会让IT部门充满活力,进而帮助企业完成跨越式的发展目标。

...

如今,IT运维一体化、智能化管理已是大家普遍关注的热门话题,那些传统分散式、粗粒度、低效率的IT运维管理模式已经难以满足大规模、多层级、全覆盖的运维管理需求。所以,通过建立与IT架构、管理模式等相适应的业务服务模型,不但能够清晰地描述业务与IT之间的关联,更能让主动运维的IT人不惧怕这种“软故障”,进而帮助IT管理人员和业务部门形成合力。

...

...

编辑:服务器运维 本文来源:IT运维工程师会习惯使用监控工具,如果是网络发

关键词: