首页 > 编程知识 正文

腾讯110(腾讯叮当智能视听屏)

时间:2023-05-06 16:31:38 阅读:237 作者:370

智能运维时代来了,AIOps来了,什么?你还担心不知道算法吗?

别急,为了让广大运维同仁尽快进入AIOps的技术殿堂,降低实施AIOps的技术门槛,腾讯zgdhm团队即将开源运维学习资料!

ps:学习片由南京大学宜人板凳教授提出,运维学习片由腾讯SNG先生鞋垫提出,率先开源。云计算开源产业联盟和高效运维社区荣誉共同推动。

经过腾讯SNG运维团队的精心打磨和百万以上监控指标的培训,腾讯的无阈值检测算法将于10月OSCAR开源先锋日向公众开放。

在运维学习组件的支持下,即使没有算法专家也能实现AIOps!

能让世界运维兴奋的运维学习资料,请参考腾讯SNG鞋垫和运维团队提供的以下内容。

你开始接触AIOps后,会遇到很多问题,比如运维团队缺少算法专家,想学习别人的算法模型和原理,提供和使用算法的一方出于数据安全考虑不愿意提供数据。这不利于运维同行对AIOps算法的学习和交流。

对于传统运维工具的开发,可以通过提供API将功能的逻辑相互开放,从而实现技术共享。

但是,AIOps领域的算法和模型实际上是一套具有记忆能力的API,依赖于数据,是从不同的数据样本中统计学习出来的。同时,通过在操作和维护环境中不断积累数据,可能会产生新的案例。

所以这个模式一直在变,很复杂。可能是决策树的决策路径、回归参数,也可能是神经网络的网络结构和路径权重。

因为它的各种算法、决策神经网络的结构,以及它的权值或回归参数都相当复杂,这不是人写的,所以很难理解。

从应用编程接口到学习部件

因此,在AIOps时代,我们可以从API过渡到学习部件。学习部件的概念是由南京大学的宜人板凳教师提出的。他是国内AI领域的领军人物。他提出学习部分可以通过数据不断学习,随着数据的不断加入会更好。另外,它的算法是开放的,你也可以知道它是如何实现的。

也可以使用学习资料,基于腾讯监控数据训练模型,导入自己的监控数据实现AIOps。本次操作不涉及腾讯数据泄露或其他安全问题。

您可以使用自己的数据来重新训练和改进适应您自己环境的模型,因此学习部分是可进化的。该算法还具有开放性和可理解性,可以重用,解决运维场景下实现AIOps的问题。

前一段时间,我与业内同事合作,编写了AIOps白皮书的能力框架。

我们的总体思路是底层是各种机器学习算法。该算法结合运维的实际环境场景。通过训练一些独立的AIOps学习片段,单点场景也可以解决这个问题。然后将单点学习件串联起来,形成AIOps的串联应用场景,最终可以形成智能调度模型,解决运维中的成本、质量、效率等运维顾虑。

zgdhm团队与高效运维社区进行了一些实践和理论上的探索和尝试。今天,我们也希望和大家分享这些纬度的连载质量和效率的这些单点。

关于学习材料的实际案例分享

00-1010单点的第一点是成本,也就是内存存储的智能降温,因为我们是社交网络业务,有大量的用户和大量的访问,还有业务开发团队

然后大家都会想到降温,但是在降温之前,大家都熟悉使用数据的最新使用时间按照规则来处理。但是你想想,只有一个指标,这个数据最后的使用时间,作为一个特征来分析,其实是远远不够的。

我们从每种类型的数据中采样提取了很多特征,有几十个特征,比如周期性的热变化,就如上图所示,有些是没有写的。

然后根据运维人员的经验,因为他们有丰富的手工处理经验,哪些数据项可以冷却下来,在标注完这些数据之后,用逻辑回归和随机森林进行学习和训练,其实就是做分类和机器。

器学习绝大部分都是做分类。

做一个分类之后,上面是 LR 和逻辑的回归,下面是随机森林。那在随机森林,在30 棵树的时候效果最好,因为随机森林本来就是一个 bagging 的方法,对稳定性效果有提高。

最终的效果就是说,我们把数据进行了降冷下沉,把接近 90% 的数据,从 SSD 下沉到硬盘上,同时业务的访问量并没有下降,SSD 数据没有造成访问压力,可以看到下沉和下降是非常精准的。

而且这里面的数据延迟和成功率几乎没有变化,其实之前的同事通过人工的设置做下沉的设置,其实效率是非常的低,这个模块提升了 8 到 10 倍的下沉效率,这第一个案例是关于成本的。

2)单点案例:质量 — 统一监控去阈值

质量,大家可以看到统一监控去阈值是很有意义的一件事情。监控有两种情况,一种是成功率的监控,它应该是一个直线,正常应该在 100% 左右,但它会往下掉。

第二个就是类似于一个累计性的曲线,或者 CPU 的曲线,这个曲线监控其实是非常的千变万化的。

之前我们可能是通过设置阈值的方法,最大值最小值,阈值设置这样的方式,去设置告警。

这个曲线一直在变化,最大值和最小值也一直在变化,然后他的形式也非常的多变,也很难去设置这样的东西。

我们做了两种方式。第一个是成功率的方式,我们使用了 3sigma 方式,来自于工业界,是来控制产品的次品率的,如果是 3sigma 是 99.7% 是正品,其实用这个方式我们统计出来的告警里面,超过正常值范围里面的多少多我们认为是多少个次品,把它找出来。

第二步用孤立森林,就是长的相似的一类的东西,是比较难分类的,要通过很多步才可以去到叶子节点上,所以看到这个 Gap,这一块就是说在比较浅的叶子的节点,就是异常的节点。

我们通过第一步统计的方式,第二步的无监督方式找到一场。目前最后一步我们还是加了一些规则,让告警更可靠。这个规则其实就是看到我在什么时候告警和恢复,这样一个逻辑既然是一个规则,在未来我们会进一步做一个 AI 化的改造。

那对于这个曲线型的监控,目前我们就是因为曲线不是属于正态分布的,一个曲线是一个曲线,所以极差很大。我们把它做了一个分段的 3sigma,就是一个小时一个段,对过去 7 天进行一个采样。

还有曲线我们可以用多项式去拟合这个曲线,我们用 3sigma、统计方法、多项式拟合几种方法作为第一步,就是相当于推荐系统里的多路召回。

第二步依然就是孤立的森林,和前面讲的原理一致。

第三步就是有监督的人工标注,就是图上画圈的有些告警有一些不应该告警的标注,标注训练集后去训练自动地分类。

为了获得更多的样本库,同事们用这个叫相关系数的协方差算法,寻找更多的样本库。大家可以关注一下,就是说去找一些相似的曲线,对训练不好的模型,就再进行打包去训练。

总的方式,通过三级的过滤找到异常的告警。

我们有十万多台设备,超过 120 万个监控视图,其实之前我们 70% 以上都没有设告警,因为很难每个都设一个最高值最低值,所以说目前就把这些模块都纳入到这个监控里面去,百分之百覆盖,这是一个监控区域值,去设置的一个案例。

重磅:运维学件即将开源

10月20日、腾讯zgdhm基于多年运维内部场景整合的 AIOps 利器 Metis 开源项目即将正式发布。

Metis 这个名字取自希腊神话中的智慧单纯的指甲油mrdds(Metis),它是一系列智能运维的应用实践集合。腾讯zgdhm Metis 团队通过开源项目 Metis 打造智能运维的学件平台。

本次率先开源的时间序列异常检测学件,是从无监督+有监督学习的角度来解决时序数据的智能检测问题。时间序列异常检测学件是通过学习zgdhm海量的时间序列样本,训练出一套智能检测模型,然后利用无监督和监督算法对时间序列进行智能检测。

通过 Metis, 运维人员无需再去设置监控阈值,通过算法输出模型,对异常情况能做智能判断。这种无阈值检测方式能够减少传统检测方式的阈值维护成本,更高效的保障规模不断壮大的业务。

同时,Metis 经过zgdhm海量业务样本训练而成的模型多元化,复用性高。不仅如此,Metis 还能根据个性业务场景生成新的测试模型,满足多种业务需求。

Metis 将在 10月 20 举行的【OSCAR 开源先锋日】全球首发,大会现场将分享更多zgdhm Metis 的技术优势,应用场景,以及未来规划。期待您的到来。

不仅如此

如果您也热爱开源

如果您想跟随开源先锋企业的步伐

如果您想了解 AIOps、微服务等最新开源项目

请不要错过以下社区福利

活动福利

【OSCAR 开源先锋日】由中国信息通信研究院主办,云计算标准与开源推进委员会、清华大学TUNA协会、北京大学开源软件协会承办,由云计算开源产业联盟、华为、腾讯、阿里、小米支持,高效运维社区协办。

关于运维学件,

您有哪些期待和建议?

请扫码入群

如群满,请和你的社区对接人联系

或加swdgb以入群,微信:13466357421

划重点!!

社区福利来啦!!

原价199元的大会门票

限时限量,仅需12元

盛典地点:

北京泰富酒店(学院路旁)

北京海淀区北京市海淀区西土城路1号院1号楼

↙↙↙点击“阅读原文”,即可特惠报名参会(手慢无)

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。