腾讯110(腾讯叮当智能视听屏)

智能运维时代来了，AIOps来了，什么？你还担心不知道算法吗？

别急，为了让广大运维同仁尽快进入AIOps的技术殿堂，降低实施AIOps的技术门槛，腾讯zgdhm团队即将开源运维学习资料！

ps:学习片由南京大学宜人板凳教授提出，运维学习片由腾讯SNG先生鞋垫提出，率先开源。云计算开源产业联盟和高效运维社区荣誉共同推动。

经过腾讯SNG运维团队的精心打磨和百万以上监控指标的培训，腾讯的无阈值检测算法将于10月OSCAR开源先锋日向公众开放。

在运维学习组件的支持下，即使没有算法专家也能实现AIOps！

能让世界运维兴奋的运维学习资料，请参考腾讯SNG鞋垫和运维团队提供的以下内容。

你开始接触AIOps后，会遇到很多问题，比如运维团队缺少算法专家，想学习别人的算法模型和原理，提供和使用算法的一方出于数据安全考虑不愿意提供数据。这不利于运维同行对AIOps算法的学习和交流。

对于传统运维工具的开发，可以通过提供API将功能的逻辑相互开放，从而实现技术共享。

但是，AIOps领域的算法和模型实际上是一套具有记忆能力的API，依赖于数据，是从不同的数据样本中统计学习出来的。同时，通过在操作和维护环境中不断积累数据，可能会产生新的案例。

所以这个模式一直在变，很复杂。可能是决策树的决策路径、回归参数，也可能是神经网络的网络结构和路径权重。

因为它的各种算法、决策神经网络的结构，以及它的权值或回归参数都相当复杂，这不是人写的，所以很难理解。

从应用编程接口到学习部件

因此，在AIOps时代，我们可以从API过渡到学习部件。学习部件的概念是由南京大学的宜人板凳教师提出的。他是国内AI领域的领军人物。他提出学习部分可以通过数据不断学习，随着数据的不断加入会更好。另外，它的算法是开放的，你也可以知道它是如何实现的。

也可以使用学习资料，基于腾讯监控数据训练模型，导入自己的监控数据实现AIOps。本次操作不涉及腾讯数据泄露或其他安全问题。

您可以使用自己的数据来重新训练和改进适应您自己环境的模型，因此学习部分是可进化的。该算法还具有开放性和可理解性，可以重用，解决运维场景下实现AIOps的问题。

前一段时间，我与业内同事合作，编写了AIOps白皮书的能力框架。

我们的总体思路是底层是各种机器学习算法。该算法结合运维的实际环境场景。通过训练一些独立的AIOps学习片段，单点场景也可以解决这个问题。然后将单点学习件串联起来，形成AIOps的串联应用场景，最终可以形成智能调度模型，解决运维中的成本、质量、效率等运维顾虑。

zgdhm团队与高效运维社区进行了一些实践和理论上的探索和尝试。今天，我们也希望和大家分享这些纬度的连载质量和效率的这些单点。

关于学习材料的实际案例分享

00-1010单点的第一点是成本，也就是内存存储的智能降温，因为我们是社交网络业务，有大量的用户和大量的访问，还有业务开发团队

然后大家都会想到降温，但是在降温之前，大家都熟悉使用数据的最新使用时间按照规则来处理。但是你想想，只有一个指标，这个数据最后的使用时间，作为一个特征来分析，其实是远远不够的。

我们从每种类型的数据中采样提取了很多特征，有几十个特征，比如周期性的热变化，就如上图所示，有些是没有写的。

然后根据运维人员的经验，因为他们有丰富的手工处理经验，哪些数据项可以冷却下来，在标注完这些数据之后，用逻辑回归和随机森林进行学习和训练，其实就是做分类和机器。

器学习绝大部分都是做分类。

做一个分类之后，上面是 LR 和逻辑的回归，下面是随机森林。那在随机森林，在30 棵树的时候效果最好，因为随机森林本来就是一个 bagging 的方法，对稳定性效果有提高。

最终的效果就是说，我们把数据进行了降冷下沉，把接近 90% 的数据，从 SSD 下沉到硬盘上，同时业务的访问量并没有下降，SSD 数据没有造成访问压力，可以看到下沉和下降是非常精准的。

而且这里面的数据延迟和成功率几乎没有变化，其实之前的同事通过人工的设置做下沉的设置，其实效率是非常的低，这个模块提升了 8 到 10 倍的下沉效率，这第一个案例是关于成本的。

2）单点案例：质量 — 统一监控去阈值

质量，大家可以看到统一监控去阈值是很有意义的一件事情。监控有两种情况，一种是成功率的监控，它应该是一个直线，正常应该在 100% 左右，但它会往下掉。

第二个就是类似于一个累计性的曲线，或者 CPU 的曲线，这个曲线监控其实是非常的千变万化的。

之前我们可能是通过设置阈值的方法，最大值最小值，阈值设置这样的方式，去设置告警。

这个曲线一直在变化，最大值和最小值也一直在变化，然后他的形式也非常的多变，也很难去设置这样的东西。

我们做了两种方式。第一个是成功率的方式，我们使用了 3sigma 方式，来自于工业界，是来控制产品的次品率的，如果是 3sigma 是 99.7% 是正品，其实用这个方式我们统计出来的告警里面，超过正常值范围里面的多少多我们认为是多少个次品，把它找出来。

第二步用孤立森林，就是长的相似的一类的东西，是比较难分类的，要通过很多步才可以去到叶子节点上，所以看到这个 Gap，这一块就是说在比较浅的叶子的节点，就是异常的节点。

我们通过第一步统计的方式，第二步的无监督方式找到一场。目前最后一步我们还是加了一些规则，让告警更可靠。这个规则其实就是看到我在什么时候告警和恢复，这样一个逻辑既然是一个规则，在未来我们会进一步做一个 AI 化的改造。

那对于这个曲线型的监控，目前我们就是因为曲线不是属于正态分布的，一个曲线是一个曲线，所以极差很大。我们把它做了一个分段的 3sigma，就是一个小时一个段，对过去 7 天进行一个采样。

还有曲线我们可以用多项式去拟合这个曲线，我们用 3sigma、统计方法、多项式拟合几种方法作为第一步，就是相当于推荐系统里的多路召回。

第二步依然就是孤立的森林，和前面讲的原理一致。

第三步就是有监督的人工标注，就是图上画圈的有些告警有一些不应该告警的标注，标注训练集后去训练自动地分类。

为了获得更多的样本库，同事们用这个叫相关系数的协方差算法，寻找更多的样本库。大家可以关注一下，就是说去找一些相似的曲线，对训练不好的模型，就再进行打包去训练。

总的方式，通过三级的过滤找到异常的告警。

我们有十万多台设备，超过 120 万个监控视图，其实之前我们 70% 以上都没有设告警，因为很难每个都设一个最高值最低值，所以说目前就把这些模块都纳入到这个监控里面去，百分之百覆盖，这是一个监控区域值，去设置的一个案例。

重磅：运维学件即将开源

10月20日、腾讯zgdhm基于多年运维内部场景整合的 AIOps 利器 Metis 开源项目即将正式发布。

Metis 这个名字取自希腊神话中的智慧单纯的指甲油mrdds（Metis），它是一系列智能运维的应用实践集合。腾讯zgdhm Metis 团队通过开源项目 Metis 打造智能运维的学件平台。

本次率先开源的时间序列异常检测学件，是从无监督+有监督学习的角度来解决时序数据的智能检测问题。时间序列异常检测学件是通过学习zgdhm海量的时间序列样本，训练出一套智能检测模型，然后利用无监督和监督算法对时间序列进行智能检测。

通过 Metis, 运维人员无需再去设置监控阈值，通过算法输出模型，对异常情况能做智能判断。这种无阈值检测方式能够减少传统检测方式的阈值维护成本，更高效的保障规模不断壮大的业务。

同时，Metis 经过zgdhm海量业务样本训练而成的模型多元化，复用性高。不仅如此，Metis 还能根据个性业务场景生成新的测试模型，满足多种业务需求。

Metis 将在 10月 20 举行的【OSCAR 开源先锋日】全球首发，大会现场将分享更多zgdhm Metis 的技术优势，应用场景，以及未来规划。期待您的到来。

不仅如此

如果您也热爱开源

如果您想跟随开源先锋企业的步伐

如果您想了解 AIOps、微服务等最新开源项目

请不要错过以下社区福利

活动福利

【OSCAR 开源先锋日】由中国信息通信研究院主办，云计算标准与开源推进委员会、清华大学TUNA协会、北京大学开源软件协会承办，由云计算开源产业联盟、华为、腾讯、阿里、小米支持，高效运维社区协办。

关于运维学件，

您有哪些期待和建议？

请扫码入群

如群满，请和你的社区对接人联系

或加swdgb以入群，微信：13466357421

划重点！！

社区福利来啦！！

原价199元的大会门票

限时限量，仅需12元

盛典地点:

北京泰富酒店（学院路旁）

北京海淀区北京市海淀区西土城路1号院1号楼

↙↙↙点击“阅读原文”，即可特惠报名参会（手慢无）