当前位置: 澳门新濠3559 > 服务器运维 > 正文

第十届中国信息主管年会,AIOps 到底是什么

时间:2019-11-08 22:07来源:服务器运维
AIOPS是什么,它的未来如何?,AIOPS未来 AIOps,也就是基于算法的IT运维(Algorithmic ITOperations),是由Gartner定义的新类别,源自业界之前所说的ITOA(ITOperations andAnalytics)。我们已经到达

AIOPS是什么,它的未来如何?,AIOPS未来

AIOps,也就是基于算法的IT运维(Algorithmic IT Operations),是由Gartner定义的新类别,源自业界之前所说的ITOA(IT Operations and Analytics)。我们已经到达了这样的一个时代,数据科学和算法正在被用于自动化传统的IT运维任务和流程。算法被集成到工具里,帮助企业进一步简化运维工作,把人类从耗时又容易出错的流程中解放出来。人们不再需要在遗留的管理系统中定义和管理无穷无尽的规则和过滤器。

在过去的几年间,一些新技术不断涌现,利用数据科学和机器学习来推进日益复杂的企业数字化进程,“AIOps”(Algorithmic IT Operations)因此应运而生。Gartner的报告宣称,到2020年,将近50%的企业将会在他们的业务和IT运维方面采用AIOps,远远高于今天的10%。

AIOps的不同之处在这里体现出来。AIOps的解决方案专注于解决问题,而且是通过使用基于算法的技术来高度模仿人类(而且以更快的速度和更大的规模)。算法的效率提升了AIOps的价值,而相对于人类的智慧——虽然是无限的,但不如机器来得高效。下面这个案例是基于机器学习的 KPI 自动化异常检测。

澳门新濠3559,上图表示运维人员判断 KPI 曲线的异常并标注出来, 系统对标注的特征数据进行学习 。这是典型的监督式学习,需要高效的标注工具来节省运维人员的时间: 如可以拖拽,放大等方式。

借助智能算法的技术优势,原先人工需要几个小时完成的任务现在通过自动化可以在几秒钟内完成,而且能够得到更好的结果。传统的IT运维需要管理大量的告警,极大地分散了企业的注意力,他们需要花很多时间解决无聊的问题,没有时间用于创新。使用AIOps可以解决这些问题,把运维人员从纷繁复杂的告警和噪音中解脱出来。各个行业的企业正在采用AIOps,他们使用这项技术来改进客户的数字体验——银行、娱乐、交通、零售,甚至政府。

尽管AIOps还是一个新名词,但并不代表它只是未来的一种趋势而已。在这个数字的年代,任何使用传统技术来管理机器数据的组织要么忽略了信息的价值,要么已经让他们的运维团队不堪重负。随着数据的暴涨,CIO们应该快速拥抱AIOps。传统AI仍然会在某些领域发挥它的作用,而AIOps将为企业带来最直接最深远的价值。

转载自:

澳门新濠3559 1

由中国电子信息产业发展研究院主办的“第十届中国信息主管年会”12月12日在京召开,本次会议以“十年·谋变·成长”为主题,邀请政府主管领导、两院院士、知名学者,及来自政府、制造、医疗、金融、教育、零售等行业CIO、技术主管等在内的500余人,LinkedSee灵犀合伙人熊亚军应邀出席了本次会议。

AI 时代,AIOps 热炒,运维应该关心的是什么:

摘要

智能运维AIOps平台结合大数据和机器学习功能来支持IT运维。I&O(基础设施和运维/运营)领导人应该开始部署这样的平台,以加强目前的性能监控,但计划需要5年时间来扩展到服务台和自动化系统。

会上,中国云体系产业创新战略联盟为LinkedSee灵犀颁发了入盟铜牌,LinkedSee灵犀正式成为“云体系联盟”的理事单位成员。

AIOps 到底是什么?

概述

关键发现

在过去的三年里,IT部门分别部署了大数据和机器学习技术,以支持IT运维的监控。然而,在过去的6个月里,企业开始将他们的IT运维导向的大数据和机器学习项目结合起来,并将它们扩展到服务台和自动化。

企业使用人工智能进行IT运维(AIOps),以增强和偶尔地替代传统的应用程序性能监视(APM)和网络性能监视和诊断工具(NPMD)。

在过去的18个月里,面向IT运营的供应商一直倾向于专注于大数据或机器学习,而收购和发展战略的趋势则导致了两者结合起来的新一代平台的出现。

AIOps技术的稀缺性正在改善,一方面,大学毕业生拥有快速增长的数据科学技术,另一方面,供应商简化了交付AIOps功能的接口。

建议

负责优化IT运维以驱动业务价值的基础设施和运维/运营(I&O)领导者应该:

第十届中国信息主管年会,AIOps 到底是什么。通过采用侧重于历史数据的增量方法,以增量方式确保部署AIOps功能的成功。

通过选择能够接收和提供日志数据、文本数据、有线数据、指标、API数据和社交媒体派生的用户情绪数据的AIOps平台,确保对IT系统的过去、现在和未来状态的全面了解。

通过选择支持有能力逐步部署IT-运维-面向机器学习的四个阶段的工具,可视化和统计分析、自动模式发现、基于模式的预测和根本原因分析,来深化IT运维团队的分析技能。

中国云体系产业创新战略联盟成立于2013年,是我国首个以云网端体系为核心理念的国家级联盟,也是中国网络强国战略的重要支持单位。

AI 和 Ops 究竟是什么关系?

战略规划设想

从今天的5%起,到2022年,40%的大型企业将结合大数据和机器学习功能,支持和部分替代监测、服务台和自动化流程和任务。

与此同时,在本次年会中,LinkedSee灵犀斩获中国信息化新锐企业和中国信息化首选品牌两项大奖。

AIOps 到底会带来哪些改变(颠覆 or 提升)?

市场定义

AIOps(见注1))平台是将大数据和人工智能或机器学习功能相结合的软件系统,以增强和部分取代广泛的IT运维流程和任务,包括可用性和性能监视、事件相关性和分析、IT服务管理和自动化。

其核心功能是:

从各种资源中摄取数据

存储获取的数据

提供对数据的访问

在以下两方面上启用数据分析:

数据输入

存储数据访问

分析工作的目标是发现描述或能够生成正在规划的数据集的模式。因此,它们超越了数据本身,这些模式是新的元素,可以用来预测可能发生的事件和出现的情况,并及时向后看,以确定当前系统行为的根源(参见图1)。

图1 AIOps平台使IT运营管理(ITOM)能够持续洞察

澳门新濠3559 2

来源:Gartner(2017年8月)

一天内获得如此多的殊荣,说明LinkedSee灵犀积累的智能运维经验和技术实力得到了业内认可,AIOps也进入产业发展快车道。

按照 Gartner 的定义,AIOps 是 Algorithmic IT Operations,但是在人工智能时代,可能很多的人会把 AI 理解成 Artificial Intelligence,不去纠结定义,本质上,想要表达的意思是一样的,就是 让运维具备机器学习和算法的能力。

市场方向

人工智能技术在过去的20年里断断续续地影响了ITOM的演变(见注2),而AIOps平台只是最近的一个例子。然而,从2015年到2017年初,有可能对AIOps采取两种截然不同的方式。在第一个方法中,一个供应商将会将对历史数据的访问、索引、存储和访问的能力打包在一起,并以最低程度的自动化程度支持基本的可视化和统计分析功能。在第二种方法中,供应商将提供一种能够自动实时模式发现流数据的引擎。在过去的6个月里,这条线开始变得模糊。

在历史数据管理中拥有强大地位的供应商要么是自主开发的,要么获得了流数据和自动模式发现和预测功能。此外,AIOps平台倾向于扩大他们能够消化的数据类型的范围。特别是,在过去,仅支持记录日志数据的供应商现在正在扩展其范围,以包括度量和连接数据。在Gartner对AIOps的大约500个客户调查中,超过300个客户表示愿意扩大范围。因此,考虑到供需两方面的趋势,Gartner预计,未来5年,大范围的AIOps平台将成为交付AIOps功能的实际形式。

到目前为止,AIOps的功能主要用于支持IT运维流程,以支持监视或观察IT基础设施和应用程序行为。无论是采用机器学习在事件管理环境中更好地重复删除事件,还是在应用程序性能监控环境中将应用程序日志提取添加到基于字节码工具的数据收集中,AIOps平台投资几乎总是以减少IT问题解决的平均时间的能力为目标。然而,在过去六个月中,在针对AIOps主题进行的大约500次调查中,有30次Gartner客户表现出越来越多的使用AIOps功能,通过将大数据和机器学习应用于故障排查来提高对事件和问题的参与度,及CMDB功能,并在开发和生产之间的界面上驱动自动化。 换句话说,AIOps功能正在开始扩展,超越了监控,到了ITOM其他领域。

LinkedSee灵犀预测,2018年将会是AIOps的元年

AIOps是Algorithmic IT Operations的缩写,从字面上看是一种基于算法的运维方式,区别于传统的人工运维和自动化运维,通过基于运维大数据的机器学习,用智能决策逐步取代人工决策,提升IT管理效率。

作为国内最早规模化落地AIOps的团队,LinkedSee灵犀将AIOps定义为运维4.0,其从手工运维——半自动化运维——自动化运维演变而来,是运维界人士不断追求运维效率革命性提升的效果使然。Gartner今年正式发布对未来运维的预测,结论是2021年50%的全球企业的运维系统会切换成AIOps。

在信息化飞速发展的今天,AIOps以IT大数据为切入点,致力于解决所有数字化和互联网+转型企业所面临的业务与IT系统断层的问题,这也与本次大会的主题不谋而合。

如果直观的理解 AI 和 Ops 的关系,类比到人,AI 相当于人的大脑,我们手脚和躯干是执行系统,大脑负责决策判断,手脚躯干负责完成大脑下发的动作指令。

市场分析

到目前为止,几乎没有厂商提供全面的集成的AIOps平台。然而,许多供应商提供了大量的AIOps功能,其中的子集是相互集成的。为了更清楚地了解市场是如何演变的,以及供应商之间的相互关系,Gartner将现有的AIOps能力划分为11个类别:

历史数据管理——允许对日志数据、线数据、指标和文档数据进行存储、索引和持久存储的软件或设备,由于所得到的数据库大多是非结构化的,或者更优秀的,半结构化的,并且存储的数据集本身在高容量中积累,高速变化,并根据不同的格式隐式地构造。这种历史数据管理功能可以被合理地称为“大数据管理”。

流数据管理——允许捕获、可能的归一化和索引的软件或设备,以及在下面提到的一个或多个数据类型的实时呈现。流数据管理软件不仅必须能够展示传入的数据,用户会认为实时,但是实际上还必须提供数据给用户,直接输入的时候不需要持久化数据库的访问。

日志数据摄取——允许从任何软件或硬件设备生成的日志文件中捕获字母数字文本字符串的软件,以及用于访问和分析的数据的编写,并可能为存储编入索引。

有线数据摄取——允许从网络上的源头直接捕获数据包数据的软件,所有的协议和流程信息都应该准备好进行访问和分析,并可能对存储进行索引。

度量数据摄取——允许直接捕获数字数据的软件,可以立即应用获取数据的时间序列和更一般的数学运算。

文档文本输入——允许对人类可读文档进行输入、解析和语法和语义索引的软件。这可能包括使用通常被描述为自然语言处理(NLP)的技术。

自动模式发现和预测——基于以上提到的一种或多种类型的历史或流媒体数据的软件,得出数学或结构模式描述了可能被推断出的新型关联,但并没有立即出现在数据集上。这些模式可以被用来在时间上向前推进,并以不同程度的概率预测事件。

异常检测——使用先前组件发现的模式的软件,首先确定什么是正常的系统行为,然后从正常的系统行为中辨别出偏离。

根源决定——通过自动模式发现和预测组件建立的关联关系网络删除依赖关系的链接,以提供有效干预的方法。

本地交付——一个或多个以上的AIOps能力作为一个本地解决方案的能力。

软件即服务——能够从云中交付一种以上的AIOps功能。

物联网时代的到来与AIOps的关系

在圆桌对话环节中,LinkedSee灵犀的合伙人熊亚军就“人工智能发展趋势和数字化转型之路”议题,结合AIOps和本次大会主题,讲述了LinkedSee灵犀基于“云架构”的新运维领域,通过“大数据+人工智能”技术创新提升IT运营能力的经验。从TCO、可靠性、效率、技术先进性四个维度去衡量一个企业的IT运营能力,帮助运维团队提升价值和幸福感。

熊亚军表示:“随着物联网时代的到来,物联网设备种类繁多、数量急增,维护管理成为难题,同时也是保障物联网服务体验的基础,LinkedSee灵犀正践行着帮助用户从传统体检式运维转向基因预测式运维,为更多的厂商提供服务和解决方案,致力于成为AIOps中国第一品牌。”

LinkedSee灵犀(北京灵犀联云科技有限公司),成立于2015年,总部位于北京,核心创业团队有着超过10年的百度运维经验,是中国最早规模化落地的AIOps团队,服务于中国的互联网、互联网金融、金融、运营商、能源、政企等行业客户,提供云计算和大数据时代的新型智能IT运维产品和解决方案,帮助客户优化其IT基础设施以及网络和业务的可用性、TCO和运营效率,使得其能够轻松拥有BAT级别的系统能力,满足客户不断增长的规模增长和IT架构迭代需求。

我们可以稍微停顿再思考一个场景,无人驾驶是怎么样的?

典型供应商

在这个市场指南中列出的供应商并不意味着一份完整详尽的列表,本部分旨在提供对市场及其产品的更多了解。

AIOps平台供应商拥有广泛的能力,并且持续增长,值得注意的是,能够提供某种能力并不意味着能够以有效的综合方式提供能力。

在表1中,我们提供了提供AIOps平台功能的供应商的代表列表。

表1 代表AIOps供应商的能力

澳门新濠3559 3

来源:Gartner(2017年8月)

不难得到答案,AI 更多的是根据路况做决策判断,然后将这些指令下发给汽车自身的驾驶系统(如左转、右转、倒车、油门、刹车等)。在一定条件下(如完善的交通规则、良好的公民素质等),基于海量的数据和优秀的算法,机器学习做出的判断会比人更加高效和准确(至少机器不会因为疲惫而造成反应迟钝等等)。

市场建议

通过采用侧重于历史数据的增量方法,以增量方式确保部署AIOps功能的成功

I&O团队必须循序渐进地逐步部署AIOps功能,从访问和分析历史数据开始,然后在稍后的时间点访问和分析流数据,以及应用机器学习功能。应该注意的是,历史和流数据分析都需要构建和细化描述能够生成这些数据的IT环境的模型。

AIOps功能的有效部署,甚至局限于以监控为导向的用例,需要一种文化的改变。监控、ITSM或自动化的概念应该根据数据源(而不是技术类型或基础设施层)重新组织它们的领域,从而颠覆了传统上设计的工具、流程和任务的大部分原则。Gartner发现,最好从掌握各种来源的大型持久数据集开始。只有在IT运营团队熟练掌握了AIOps的大数据方面之后,它才会尝试掌握能力类别。因此,在选择工具或服务时,企业应该优先考虑那些允许部署数据摄取、存储和访问的供应商,这些供应商可以独立于剩下的AIOps组件,但仍然支持逐渐增加其他功能。

选择AIOps平台,能够支持广泛的历史和流数据类型

现代IT操作的目标之一是深入了解IT系统的过去状态,并将学习与当前面向总体IT平台的潜在未来状态联系起来。为了实现这一目标,I&O领导者必须选择能够接收和提供广泛的历史和流媒体数据类型的AIOps平台,包括:日志数据、文本数据、有线数据、指标、API数据和社交媒体派生的用户情绪数据。

AIOps平台历来关注单一数据源,如日志数据或线缆数据。不幸的是,无论给定的数据集有多大或频繁更新,对单个数据类型的限制往往限制了对一个人或一个模式发现算法的集合所能获得的系统行为的洞察。这有点像盲人和大象的古老传说。每一个盲人都接触到大象身体的不同部分,得出了一个完全不同的结论,关于这个动物的形状和性质的结论是完全不同的。现代IT系统——以其模块性、动态性和分布式性——需要一个多视角的方法,即使是为了了解正在观察到的事情,更不必说计划他们的未来,或者确定使他们到达目的地的原因。因此,企业应该选择那些能够从多种来源中摄取和分析数据的AIOps平台。

选择提供可增量地部署it操作的四个阶段的工具——面向操作的分析和机器学习

增强IT操作团队技能的关键属性之一是渐进式方法。支持增量部署和支持IT-运维-面向机器学习的四个阶段的工具必须获得更高的投资优先级:

可视化和统计分析

自动化的模式发现

基于模式的预测

根本原因分析

在IT运维环境中部署人工智能非常困难,必须逐步实现。IT运营团队应该通过熟练掌握数据可视化和基本统计分析,开始他们的人工智能之旅。不惜一切代价,抵制一次做这一切的诱惑。只有在这些核心“手工”学科被掌握之后,人工智能或机器学习才会被接近。在这里,他们最初应该尝试允许软件揭示组织大量数据的模式。接下来,他们应该测试这些模式允许他们预测未来事件和事件的程度。只有当团队开始使用根本原因分析功能时,才会接近结束。最后,AI的所有四个阶段都很重要,企业应该选择尽可能多的工具。这些阶段应该以模块化的方式进行部署,但也要确保IT操作能够在学习过程中获得价值。

解释到这里,以此类推,就不难理解 AI 和 Ops 的关系了。

证据

自2016年6月以来,已经有超过500次的调查涉及AIOps和/或AIOps平台的选择。

●“基于专家经验”到“基于机器学习”的转变

注1

AIOps从算法发展到人工智能

在Gartner的词典中,“AIOps”的首字母缩写为“算法IT运维”。然而,在过去的一年中,在Gartner和一般的市场使用中,“人工智能”一词主要指的是将自动模式发现算法应用于大型数据集,其次,尝试模仿一些人类的智力行为,比如语音。由于这些正是AIOps平台的特点,所以我们决定在我们对这个主题的报道中采用这种命名法。虽然算法方法毫无疑问是这个市场形成的基础步骤,但我们现在强调这个领域的“人工智能”术语,以便更好地反映对AI概念的接受和对其潜力的不断增长的投资的快速转变。

前面提到,AI 发挥的作用是,动态变化场景的复杂条件下,能够做出高效准确的决策判断。回到运维上来,我们现在常看到的监控告警、根因分析、日志异常检测、报警聚合、容量预测、故障预测等等,这些都是要基于海量的线上运行时数据,做出分析判断的,所以在这一块,我们会看到大量的跟 AI 结合的 AIOps 的解决方案,特别是智能监控。

注2

AIOps之前

从历史上看,“人工智能”一词已经被用来表示试图模仿人类的知觉和智力操作系统(硬件和软件)。20世纪50年代末,大学和国防部开始进行这样的尝试,到目前为止,已经有两个时期,这种学术和军事工作的成果进入了商业市场。第一个时期从上世纪80年代中后期开始,结束,而不是巧合,结束了冷战。第二个时期开始于过去十年的结束,至今仍有增无减。

在商业化时期,“人工智能”一词被用来作为营销言论涵盖特定的知性与感性操作尝试模仿(例如,计算机视觉系统和NLP系统)和软件系统或硬件/软件栈,优化的两个算法范例,证明有用的模仿工作(基于规则的推理引擎和机器学习),无论该产品是否体现这些模式是针对模仿人类大脑的任何方面。在商业化的第一阶段,第一个算法范式得到了青睐,而第二阶段的购买者和供应商,似乎主要关注第二种模式。

在20世纪90年代早期,围绕基于规则的推理引擎开发的许多知识产权被重新用于支持技术,从而使分布式系统管理的相对新领域得以实现。现在的许多服务台系统,在他们的心里,都是基于规则的推理引擎,直接从1990年到1995年的时间框架下的代码直接下降。分布式管理框架也常常是由人工智能组件构建的。例如,IBM Tivoli管理环境基本上是一种基于规则的推理引擎,编写在逻辑编程语言Prolog中。

当然,近年来,人工智能已经卷土重来,但正如上面所提到的,以机器学习为基础的技术已经占主导地位。值得注意的是,从一个算法的角度来看,几乎没有什么新东西(例如,深度学习算法是在20世纪80年代后期发现的,它们本身只是以前开发的神经网络算法的一个小变体)。最新的是计算和通信成本的降低,这使得1980年代后期的不实际操作变得非常实际。

像许多其他市场领域,ITOM部门现在也试图利用经济和计算上可行的机器学习算法范例的用例,或者建立在基于规则的ITOM功能开发后的第一期商业化或从头开始创建新的纯模式发现系统。正如本研究中所提到的,在其他地方,机器学习在ITOM上下文中被证明是非常有效的,当它与一个大数据能力结合在一起时。无论如何,将人工智能嫁给ITOM并不是一个令人吃惊的创新。这只是一段30年的关系的最新篇章。

而对于一些静态化的配置(CMDB、应用配置管理等),或者按照标准的流程规范,按部就班就可以完成的事情,比如持续集成、发布和部署等等,这些其实就没有必要硬跟 AI 本身扯上什么关系了,但是不是也完全没有任何关系呢?也不一定,后面会看到。

下面以智能监控方面的例子来说明一下,我理解的一整套的 AIOps 应该是什么样子。

参考说明:以下参考

澳门新濠3559 4

发现问题―机器学习算法在异常检测中的应用

从“基于专家(人)经验”演化成“基于机器学习”的判断和分析模式,举个监控告警规则设定的例子。

通常处理一个问题,抽象出来就是以下三个环节,我们就从这三个环节一步步分析我们要做的具体的事情:

a、传统模式下基于人的经验,是基于固定阈值的设定,比如 CPU 高于 80% 就告警,Load 超过 Core 的 2 倍就告警等等,而这个 80% 和 2 倍,就是基于人的经验设定的,说的高端一些是专家经验。而这种经验的适配性其实是很差的,不同的应用和场景的阈值可能又不一样,大量个性化的配置就出现了,当达到一定规模时,人工基本是不可维护的。

b、发现了这种适配性不好,可以采用动态阈值判断,比如 3-sigma,或者分段 3-sigma,这个时候算法可以根据正态分布的概率,自动的调整告警阈值。但是,这样的算法容易忽略周期性和趋势,比如大促时的各项监控值一定是非常高的,而春节等假期又是非常低的,这时的监控点的分布极有可能是在正态分布之外的,如下图的个别节点就很难识别是否异常。

澳门新濠3559 5

c、继续改进,到这个阶段,就可以引入一些机器学习算法了,比如基于指数平滑的二次平滑、三次平滑算法,基于分解的傅里叶分解、小波分解算法等,基于深度学习的前馈神经网络、循环神经网络 RNN 算法等,还有其它算法等等,这个时候,算法就需要通过大量的线上历史数据进行训练,以便得出相对准确的告警策略。

d、如此多的算法,到底应该选择那个?这个时候又引入了一类机器学习算法,自动模型选取的分类算法。多个算法同时进行训练,针对不同的场景,每一种算法的效果会不同,这时根据与历史结果的对比,调整每个算法的权重,最终得出一个共同决策结果。如下图所示:

澳门新濠3559 6

在 c 和 d 阶段,已经可以引入机器学习的算法,并会通过大量历史数据的训练,让算法能够相对准确的进行异常检测,自动生成告警策略。

分析问题―RCA 根因分析

第一个阶段是发现问题,这个阶段是针对单个异常信息的,比如单个的 meric 异常、单个应用进程异常、单个应用日志信息的异常等。但是实际情况下,通常一个部件发生异常,有可能会导致周边依赖的部件会同时异常,而且会同时导致 N 个的指标异常和告警。

比如,DB 一条慢 SQL 超时,DB 会告警、依赖 DB 的应用因为连接阻塞也会告警,RT 告警、QPS 异常告警、Load 告警,JVM 告警等等多个指标异常,而且有可能一整个集群都在告警,收告警的人也很多,DBA、PE、开发、SA 等等,再复杂一点,同一时间点,可能还有线上变更操作,如应用在做发布、DB 在执行 DDL、DML 等等。

这个时候,在一个分布式系统里,我们发现了问题,但是问题根因在哪里,就变得十分重要了,这个确认不了,就没法进行止损和故障消除。而且这个定位过程一般是非常非常痛苦的,越漫长越痛苦,但凡处理过故障的同学都会有深刻的切身体会。之前我们通常只是说要做告警收敛,简单和常见场景下靠人的经验是容易判断的,但是复杂情况下,还是得借助机器学习相关的算法,且系统越庞大、越复杂,靠人和专家会越来越无力。

这个时候就需要一套根因分析 RCA 框架来帮我们做这方面的分析工作,宇辰老师给出的建议是 Monitor Everything,然后根据相关性和决策树方面的算法进行根因分析,这块从分享内容看,在业界也是有比较成熟的分析算法。下面给出我的理解,直接看下图:

澳门新濠3559 7

推荐阅读:清华大学裴丹老师的《基于机器学习的智能运维》

解决问题―通过运维体系和场景去执行动作

上面两个部分,我们更加精准的发现和分析了问题,那接下来,我们就该解决问题了,准确的说是做解决问题的动作,这个动作谁来做呢,当然是 Ops 运维体系发挥作用了,比如:

a、容量不足,要做扩容动作,或者降级或限流动作

b、发现某台或部分机器 CPU 或内存异常,那做下线动作

c、有慢 SQL,那要尽快执行 Kill 动作

d、代码有 bug?赶紧回滚,或者重新发布修改 bug 的代码

e、。。。。。

如果说前面的两个阶段要看算法的效率和准确度是不是高,到了这个阶段,就看解决问题的动作执行是快是慢了,这个取决于啥呢?当然 取决于我们的整个运维和稳定性体系是否高度自动化,是否高度完善。如果高度完善,在第二步分析问题发现根因后,应该可以跟一个运维的预案场景关联,自动触发预案的执行。做的再好一点,可以做到 AI 的预测,提前识别出可能会发生的问题,提前将预案执行完成。如果能做到这个程度,我想也算是很牛 x 的 AIOps 体系了。

当然,在发现问题和分析问题阶段,也会依赖基础的运维体系,比如日志采集、全链路跟踪、CMDB 和应用配置管理的元数据信息等等。

下面一张图完整说明下我对 AIOps 体系的理解:

澳门新濠3559 8

建议

1、AIOps 的发展一定是一个长期演进的过程,AI 是 Ops 的有力补充,进一步降低运维的工作强度和压力,但是 AIOps 一定建设在高度自动化和完善的运维体系之上的,是一个演进的过程,不会是一个跳跃性的过程,产生一个完全颠覆性的 AIOps 模式,将现有的 Ops 体系替代掉。

2、从公司的角度,先集中精力建设好运维自动化体系,效率的问题解决了,再考虑更高层次的建设,就好比先解决温饱问题,再追求小资生活,这一点前两天毕玄大师的文章也表达了这个观点,我是灰常认同的。当然如果人力、精力有富余,做一些前期的预研和投入是没问题的,但不要本末倒置。至于大厂,人家早就投入 N 多年开始研究了,其中百度做的绝对是标杆。

3、从个人角度,机器学习和 AI 的知识和技术还是要花一些个人精力去学习的,凡是会让我们的生活变得更美好的技术必然会有极强的生命力,也必然代表着未来技术发展趋势,AI 就是其中之一。

编辑:服务器运维 本文来源:第十届中国信息主管年会,AIOps 到底是什么

关键词:

  • 上一篇:没有了
  • 下一篇:没有了