splunk存储解决方案,clickhouse可视化

用户行为分析什么是UV存储解决方案的ClickHouse 1基础理论篇1.1序1.2clickhouse？ 1.3什么是列存储？ 1.4 OLAP场景的主要特点1.5列数据库适合OLAP场景原因输入输出CPU 2实训篇ClickHouse安装与运行2.1 Clickhouse安装2.2启动脚本2.3启动ClickHouse服务端2.4启动客户端

1基础理论篇1.1序

在科技发展的今天，千人千面推荐算法越来越重要，实现推荐算法，检测、记录和分析用户行为是非常重要的指标。

就短视频服务而言，如果只是统计视频的pv播放量的话，使用传统的关系数据库MySQL就可以了，但是想要积累统计视频的UV播放量的话，就变得极其困难了。

这是因为用户每天视频播放记录的增长是非常可怕的数据，传统的关系数据库存储不了这么多用户行为日志记录。

为此，博主为公司寻找能够解决此类业务问题的技术，经过多方调查，找到了ClickHouse。

当然，也有通过百度改造的开源向Apache社区捐赠的Apache axdbmh。但是，目前ClickHouse的技术比较成熟，已经和嘀嗒早早落地。唯一遗憾的是，join查询支持不够，每个组件的定制可能性高，维护相对复杂，因此Apache axdbmh支持join，维护相对容易。

所以，如果有join需求，考虑尝试Apache axdbmh，如果没有join场景需求，建议ClickHouse。

1.2什么是click house？据官网介绍， ClickHouse是一个用于在线分析(OLAP )的列型数据库管理系统(DBMS )。

ClickHouse是一个用于列存储的在线实时查询分布式数据库，适用于用户行为分析存储和查询。

据说，抖音，快手的用户行为记录UV相关存储就是采用的ClickHouse 集群。

ClickHouse之所以适合处理UV存储记录，根据博客的理解主要满足以下几点。

面向列存储，适合这种类型的数据存储借鉴了谷歌论文HDFS分布式文件存储技术，借鉴了谷歌论文MapReduce分布式计算查询技术，当然也借鉴了谷歌论文BigTable技术

阿里巴巴云的云本机数仓也提供付费解决方案。 MaxCompute (脱机)和HoleGress (实时) )。

大数据计算服务(MaxCompute，原名ODPS )是一个快速、完整托管的TB/Pb级数据仓库解决方案。 MaxCompute为用户提供了完善的数据部署方案和多种经典的分布式计算模式，可以更快地解决用户大量的数据计算问题，有效降低企业成本，保障数据安全。 MaxCompute交互式分析(Hologres )是一款专为大数据设计的实时交互式分析产品，与MaxCompute无缝协作，可实时写入数据，实现Pb级数据的高并发低速率支持与PostgreSQL协议的兼容性，支持通过最熟悉的BI工具对大量数据进行自助分析透视和业务探索，还支持超高QL。什么是1.3列存储？在传统的生产线数据库系统中，数据按以下顺序存储：

owwatchidjavaenabletitlegoodeventeventtime # 0893543506621 investor relations 12016-05-1805336019336020 # 1903295095099580 contactac 2899537060541 mission 12016-05-1807336038336000 # n…………在同一行

典型的生产线数据库系统是MySQL、Postgres和MS SQL Server。

在基于列的数据库系统中，数据按以下顺序存储：

Row:#0#1#2# nwatchid 336089354350662903295099588953706054…Java enable :101…title : investorrrelationscontactusmission…gooood event event 36060 33601033602016-05-1807336038336000…这些示例仅显示数据的排列顺序。来自不同列的值单独存储，来自同一列的数据一起存储。

典型的列数据库包括Vertica、ParAccel(ACTianMatrix，Amazon Redshift )、Sybase IQ、Exasol、Infobright、InfiniDB、monetdb ) vececk

不同的数据存储方式适用不同的业务场景，数据访问的场景包括：进行了何种查询、多久查询一次以及各类查询的比例；每种类型的查询(行、列和字节)读取多少数据；读取数据和更新之间的关系；使用的数据集大小以及如何使用本地的数据集；是否使用事务,以及它们是如何进行隔离的；数据的复制机制与数据的完整性要求；每种类型的查询要求的延迟与吞吐量等等。

系统负载越高，依据使用场景进行定制化就越重要，并且定制将会变的越精细。没有一个系统能够同时适用所有不同的业务场景。如果系统适用于广泛的场景，在负载高的情况下，要兼顾所有的场景，那么将不得不做出选择。是要平衡还是要效率？

1.4 OLAP场景的关键特征绝大多数是读请求数据以相当大的批次(> 1000行)更新，而不是单行更新;或者根本没有更新。已添加到数据库的数据不能修改。对于读取，从数据库中提取相当多的行，但只提取列的一小部分。宽表，即每个表包含着大量的列查询相对较少(通常每台服务器每秒查询数百次或更少)对于简单查询，允许延迟大约50毫秒列中的数据相对较小：数字和短字符串(例如，每个URL 60个字节)处理单个查询时需要高吞吐量(每台服务器每秒可达数十亿行)事务不是必须的对数据一致性要求低每个查询有一个jsdlt。除了他以外，其他的都很小。查询结果明显小于源数据。换句话说，数据经过过滤或聚合，因此结果适合于单个服务器的RAM中

很容易可以看出，OLAP场景与其他通常业务场景(例如,OLTP或K/V)有很大的不同，因此想要使用OLTP或Key-Value数据库去高效的处理分析查询场景，并不是非常完美的适用方案。例如，使用OLAP数据库去处理分析请求通常要优于使用MongoDB或Redis去处理分析请求

1.5 列式数据库更适合OLAP场景的原因

列式数据库更适合于OLAP场景(对于大多数查询而言，处理速度至少提高了100倍)，下面详细解释了原因(通过图片更有利于直观理解)：

行式

列式

看到差别了么？下面将详细介绍为什么会发生这种情况。

输入/输出针对分析类查询，通常只需要读取表的一小部分列。在列式数据库中你可以只读取你需要的数据。例如，如果只需要读取100列中的5列，这将帮助你最少减少20倍的I/O消耗。由于数据总是打包成批量读取的，所以压缩是非常容易的。同时数据按列分别存储这也更容易压缩。这进一步降低了I/O的体积。由于I/O的降低，这将帮助更多的数据被系统缓存。

例如，查询«统计每个广告平台的记录数量»需要读取«广告平台ID»这一列，它在未压缩的情况下需要1个字节进行存储。如果大部分流量不是来自广告平台，那么这一列至少可以以十倍的压缩率被压缩。当采用快速压缩算法，它的解压速度最少在十亿字节(未压缩数据)每秒。换句话说，这个查询可以在单个服务器上以每秒大约几十亿行的速度进行处理。这实际上是当前实现的速度。

CPU

由于执行一个查询需要处理大量的行，因此在整个向量上执行所有操作将比在每一行上执行所有操作更加高效。同时这将有助于实现一个几乎没有调用成本的查询引擎。如果你不这样做，使用任何一个机械硬盘，查询引擎都不可避免的停止CPU进行等待。所以，在数据按列存储并且按列执行是很有意义的。

有两种方法可以做到这一点：

向量引擎：所有的操作都是为向量而不是为单个值编写的。这意味着多个操作之间的不再需要频繁的调用，并且调用的成本基本可以忽略不计。操作代码包含一个优化的内部循环。代码生成：生成一段代码，包含查询中的所有操作。

这是不应该在一个通用数据库中实现的，因为这在运行简单查询时是没有意义的。但是也有例外，例如，MemSQL使用代码生成来减少处理SQL查询的延迟(只是为了比较，分析型数据库通常需要优化的是吞吐而不是延迟)。

请注意，为了提高CPU效率，查询语言必须是声明型的(SQL或MDX)，或者至少一个向量(J，K)。查询应该只包含隐式循环，允许进行优化。

2 实操篇之 ClickHouse 安装与运行

这里分享下Centos7 环境下clickhouse 的安装,其他方式的安装请参考官方文档。

clickhouse 官方Docker 镜像地址传送门

2.1 Clickhouse 安装

ClickHouse 在Centos7 上的安装很简单，通过如下命令即可：

sudo yum install yum-utilssudo rpm --import https://repo.clickhouse.tech/CLICKHOUSE-KEY.GPGsudo yum-config-manager --add-repo https://repo.clickhouse.tech/rpm/clickhouse.reposudo yum install clickhouse-server clickhouse-client 2.2 创建启动脚本 sudo /etc/init.d/clickhouse-server start

如果重复执行会报错如下：

Init script is already running 2.3 启动Clickhouse 服务端重启clickhouse-server clickhouse-server start 在这种情况下，日志将被打印到控制台，这在开发过程中很方便。日志文件将输出在/var/log/clickhouse-server/文件夹。如果配置文件在当前目录中，则不需要指定——config-file参数。默认情况下，它的路径为./config.xml。如果服务器没有启动，检查/etc/clickhouse-server/config.xml中的配置。如果需要手动指定配置文件,输入命令如下即可 clickhouse-server --config-file=/etc/clickhouse-server/config.xml ClickHouse支持访问限制设置。它们位于users.xml文件(与config.xml同级目录)。默认情况下，允许default用户从任何地方访问，不需要密码。可查看user/default/networks更多信息 2.4 启动客户端

由于服务端启动不是使用后台守护线程启动，因此这里需要新开一个窗口，执行如下命令：

clickhouse-client

注意：
如果没有2.3 启动Clickhouse 服务端这一步骤，会报错如下：

ClickHouse client version 21.6.4.26 (official build). Connecting to localhost:9000 as user default. Code: 210. DB::NetException: Connection refused (localhost:9000) 默认情况下，使用default用户并不携带密码连接到localhost:9000。还可以使用--host参数连接到指定服务器。终端必须使用UTF-8编码

示例：

$ ./clickhouse-clientClickHouse client version 0.0.18749.Connecting to localhost:9000.Connected to ClickHouse server version 0.0.18749.:) SELECT 1SELECT 1┌─1─┐│ 1 │└───┘1 rows in set. Elapsed: 0.003 sec.:)

本篇完～