监控为什么是黑白色不是彩色的,接口测试是黑盒还是白盒

说到序言监视，有各种各样的监视软件，有各种各样的保存数据的格式。最常见的方式是将相关的监视数据保存在mysql中，创建表，并按时间进行监视。这种方式的最大缺点是无法灵活地按各种维度合并数据。

强大的监视，一眼看过去，就能知道问题出在哪里；强大的监控摄像头，使用方便，不用到处找也不用找，避免猫就能理解。

黑白双重有监控方式，分为黑盒监控和白盒监控，外观和测试相似。就是所谓的黑盒测试和白盒测试。我想起了我养的两只狗，就叫它黑白双杀。

黑匣子监控，主要关注的现象，一般都是发生的。例如，如果发出了警告，文件系统是不可写的，则该监视是能够从用户的角度看到的监视，重点是能够警告已经发生的故障。

白盒监控主要关注原因，也就是系统内部曝光的指标。例如，在redis的info中显示了redis slave down。这是redis info显示的内部指标，重点是原因。恐怕在黑匣子监视中可以看到redis down，看内部信息时显示Redisportisrefort

原因是什么？什么是水果？种水果能收获，种原因能收获原因。

白盒监控包括中间件、存储、redis等web服务，可以使用info发布内部指标信息，例如mysql可以使用show variables发布内部指标信息；例如，httpd可以使用mod_status公开内部信息。

对于应用系统而言，白盒监控被称为应用的植入点。我烦恼了很久，什么是埋葬点？埋葬花的人吗？很容易理解的是，通过编程收集请求成功率、请求失败率等相关数据，收集相关数据后统一发送到监控系统，符合报警规则时进行报警。

嗬，请填一下。在应用系统中添加metric时，主要基于监控系统的客户端SDK进行设置。听起来很酷，但实际上了解一下，其实。就像那样，一点也不有趣。

构筑监视系统，如果什么都没有就发出警告，这种该死的监视有什么用？信噪比这么高，怎么玩啊？适当降低心理期待？一不小心就出了故障，一不小心就是锅。

是否降低SLO以改善服务并优化服务质量？全名运输，自己拉的屎自己吃，让开发者运输吧。运输维度可能也只是擦屁股的游戏。

探测器？探测器。在很多情况下，我们需要用探针检测什么。例如，进程不存在或磁盘分区是否可写。

探测器？如果断了怎么办？

上次有警告，某主机的文件系统不可写，整体流程如下。 prober是一个过程，它会将文件写入需要测试的分区，并在成功后删除文件。

如果收到警告，请处理。去这个主机，找到这个分区，写入文件。嗬，会写。看了测试文件，发现还有。流程没有结束吗？这是误报。

好吧，因为是误报，所以重新启动prober，再进行一次探测。嗬，居然没成功。就是这个。触及知识的盲点。

我看了一下检查的流程，发现还有。最后发现子进程，即touch文件的进程变成了僵尸进程。所以，怎么重新启动都解决不了。

看看僵尸进程的父进程，没关系。杀了僵尸进程的父进程而不是pid为1的进程也可以。

探测器。没想到断了怎么办。竟然变成了僵尸的过程

长尾效应。在监测中，往往需要看到各种监测指标的rate。可以是流量，也可以是各种请求的数量。那么，在统计这类数据时，需要注意长尾效应。如果请求的响应速度只有9.9%为1ms，剩下的1.5s，就看看平均值吧。太不一样了。因此，部分监测系统需要统计5%的请求成功率、50%的成功率、傻翅成功率。当然，将请求分为成功率和失败率是更好的方法。毕竟，慢慢失败比早失败好，对吧？

监控，怎么和开发者合作？

把开发者拉到一边说。兄弟，看看加班开发的臭虫。一天警告100个。来运输看看吗？

把开发者拉到一边说。兄弟，你开发的系统性能很高呢。看看这个CPU，这个内存

使用量，这文件系统，这吞吐量。。。但是这个前台界面的响应时间不高啊，从web页面到nginx这个响应时间还行，但是从nginx得到请求和响应的时间有点长哇，是不是数据库的性能不足了？是因为数据库里面的数据太多了么？要分库分表嘛。。。我有分库分表的方法，但是应用方面要进行改造。。。我可以给你增加一个redis cache。。。要不要试一把~

监控，怎么和产品配合？

把产品拉到开发旁边，指着dashboard说，看看这个日活量，看看这个活动的增长用户说，看看这个点赞数。。。你们的需求是根据屁股决定么？关门放程序员。。。

风言风语

某人被提升为管理者，从此我们失去了一个优秀的运维人员，增加了一个傻逼的管理者。。。Emmm。。。这个话很有道理。。。

have you tell Prometheus which Alertmanager

it will be talking to. You will need to expand your prometheus

随时随地进行功能测试的时候，是否在这个功能测试中需要加入重试机制？？？功能测试本身故障怎么办？网络抖动怎么办？。。。某些service test还是需要的。。。