大数据之路pdf下载,r语言迈向大数据之路pdf

大数据监控平台实践之路一、监控体系业务层： APP应用层：系统层：二、体系结构设计Telegraf:input:output :调度频率：服务启动： InfluxDB :服务启动：

原文地址：

大数据监控平台的实践之路

一、监控系统的监控粒度、监控指标的完整性、监控实时性是评价监控系统的三要素。从层次体系上可以将监控系统分为三个层次。

业务层：业务系统的本质目的是实现业务目标，因此监测业务系统是否正常的最有效方法是从数据中监测业务目标是否实现。通过监视业务运营数据，可以及时发现程序错误和业务逻辑设计缺陷，如注册失败率、注册失败率、支付失败率等。业务系统的多样性决定了各个业务系统应该实现监控指标的开发。

APP应用层：了解和控制APP应用的总体运行情况。如果把APP应用程序当成黑匣子，研发、运维就无从知晓APP应用程序的当前状态，也无法及时发现潜在的故障。监控APP应用程序不限于业务系统，还包括Spark、Jstorm、redis、zookeeper、kafka等各种中间件、计算引擎。常用监视数据： JVM堆内存、GC、CPU使用率、线程数、TPS、吞吐量等。一般要通过抽象的统一指标采集组件，采集APP应用级指标，例如无论是支付系统还是交易系统，都要监测jvm内存的使用情况。

系统层：实时了解服务器运行状况，注意性能、内存消耗、容量和整体系统健康状况，确保服务器稳定运行。监控指标：系统级性能指标，包括内存、磁盘、CPU、网络通信量和系统进程

二、结构设计者要想做好事，首先必须使用其器皿。基于对现有监控产品的调查，以及监控的分层介绍，可以发现从监控系统采集到分析的流程结构。收集-存储-展示-警告：

Telegraf :插件的指标收集和指标报告服务。您可以自定义开发，并轻松添加所需的插件。已经内置了很多常见服务的插件。这也是我们选择telegraf的理由之一，不需要重复制造车轮。

o用语言编写的插件指标收集代理并编译成无外部依赖的二进制文件。安装部署简单，直接下载、解压缩即可。默认配置文件位于$ telegraf _ home/etc/telegraf/telegraf.conf目录中。 telegraf插件分为两大类：输入和输出。

input (收集输入配置的所有指标，并且已经内置的输入插件) elasticsearch、redis、jolokia等。它还可以直接收集运行代理服务器的各种指标，包括内存、cpu、磁盘、磁盘I/o、进程和swap。所有input配置都简单易用，通常只需要配置服务IP地址。例如，redis指标收集结构：

如果没有内置收集插件，则有两种实现方案。

开发input插件，但这需要通过httpjson input插件请求http url并返回json格式的GO语言库。 url配置为定制指标收集服务，在指标收集服务中实现指标收集功能，将指标封装回json，或将指标数据直接签入服务中。正在监视Kettle Carte、spark、jstorm等中使用的这种实现构想。 output :将收集到的测量数据序列化并保存。 Telegraf指标由测量、标签、字段和时间戳四部分组成。支持以下存储结构： InfluxDB、Graphite和JSON，包括将度量输出到InfluxDB的配置。

urls:InfluxDB端口数据库：保存的数据库retention_policy :数据保存策略调度频率：所有度量收集频率相同，并且在配置文件代理下配置。

服务启动：config :配置式

配置目录：配置文件目录。有多个配置文件时使用

InfluxDB :高性能的发布式时间序列指标数据库。指标采集非常频繁，否则会失去实时性，高频采集的结果是大数据量，还可以进行时序分析，InfluxDB可以满足这样的应用场景。

InfluxDB是为时间序列构建的高性能数据存储，提供了分析类SQL查询语言和特定时间序列的功能。设置数据保留策略将自动从系统中删除过时的数据，并释放存储空间。社区版只支持一台服务器，存在单点故障风险，商业版支持高可用性，独立的InfluxDB可以满足需要。为什么选择InfluxDB数据库：

InflluxDB是用GO编写的，编译后是完全独立的二进制文件。安装和部署非常方便，通过解压缩软件包可以获得高性能的时间序列特定数据库。它提供了用于时间序列存储和查询的优化类SQL查询语言，通过使用阈值数据保留策略，可以有效地自动清理过期的数据。 InfluxDB数据以Shard groups格式存储，指定时间间隔的数据存储在shard中

服务启动：在shell命令行：中输入influx

常用命令： show databases :显示所有数据库

use db_name :进入数据库

显示度量：显示数据库下的所有度量

select *from cpu li

mit 10：查询一个度量的数据

Telegraf默认是将收集的数据持久化到telegraf这个数据库下，每个input对应一个度量表，比如zookeeper的指标数据就在zookeeper这个度量下：

查询数据保留策略：

duration：数据保留时间，0表示无限制，InfluxDB默认30分钟检查一次保留策略。ALTER RETENTION语句修改保留7天数据。

replicaN：每个度量在集群里的副本数，副本保证数据高可用性，社区版(单节点)不支持副本数设置。

Grafana：

时间序列分析和监控的开放平台，支持多种数据源(InfluxDB、OpenTSDB时间序列数据库)、丰富的展现形式、支持email/dingding报警。

Grafana是一个指标查询、可视化、监控的开源应用，有着非常漂亮的图表和布局展示，功能齐全的度量仪表盘和图形编辑器，支持Graphite、zabbix、InfluxDB、Prometheus和OpenTSDB作为数据源。

Grafana主要特性：灵活丰富的图形化组件，包括热力图、直方图、地图等在同一dashboard内可以混合多种展示组件开源社区有大量的插件可供选择，包括数据源插件、图形插件、通知插件可以在同一个视图里使用多个不同数据源简单使用介绍：安装：下载&解压二进制包配置：配置文件： G R A F A N A H O M E GRAFANA_HOME GRAFANAHOME/conf配置端口号、Email、登录用户start:命令：/opt/grafana/mldxf/grafana-server start访问:http://ip:port