首页 > 编程知识 正文

大数据安全,个人大数据查询平台

时间:2023-05-06 08:37:12 阅读:53266 作者:3547

大数据时代这个词提出已经十年了吧。 越来越多的企业完成了大数据平台的构建。 随着移动互联网和物联网的爆发,大数据的价值在越来越多的场景中被挖掘出来,随着大家都在使用欧冠大数据,大数据平台的搭建门槛也越来越低。

借助开源的力量,有基础研发能力的组织完全可以搭建自己的大数据平台。 但是,对于不了解过大的数据平台、数据仓库和数据挖掘概念的学生来说,构建可能还是行不通的。 因为,你会发现太多的东西和体系结构,不知道如何选择。

今天我给大家展示大数据平台是怎么玩的。

体系结构概述

大数据平台的体系结构通常如上所述,从外部数据收集到数据处理、数据显示、应用等模块。

数据收集

用户访问我们的产品会生成大量的行为日志,因此需要特定的日志收集系统来收集和发送这些日志。 Flume是目前常用的开源选择,Flume是Cloudera提供的高可用性、高可靠性、分布式的大量日志收集、聚合和传输系统。

Flume支持自定义各种数据源以在日志系统中收集数据。 Flume还提供了轻松处理数据并将其写入各种数据接收方的能力。

对于未实时使用的数据,Flume可以直接将文件放入群集的HDFS中。 实时使用的数据采用Flume Kafka,数据可以直接进入消息队列,通过Kafka将数据传递给实时计算引擎进行处理。

业务数据库的数据量比访问日志小很多。 对于非实时数据,一般定期导入到HDFS/Hive中。 一个常见的工具是Sqoop。 Sqoop是一种用于将Hadoop和关系数据库中的数据相互传输的工具,可以将关系数据库(MySQL、Oracle、Postgres等)中的数据导入到Hadoop的HDFS中,也可以将HDFS中的数据导入到HDFS中

对于实时数据库同步,可以将Canal用作中间件,处理数据库日志(如binlog ),并对其进行计算以实时同步到大数据平台的数据存储。

数据存储

无论上层采用何种大型数据计算引擎,底层数据存储系统基本上都以HDFS为主。 硬盘分布式文件系统(HDFS )是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础。 具有容错性强、可靠性高、吞吐量高等特点。

HDFS中存储了一个个文本,但在创建分析统计时,结构化非常有用。 因此,基于HDFS,可以使用Hive将数据文件映射到结构化表结构,然后查询和管理类SQL中的数据。

数据处理

数据处理是人们常说的ETL。 本部分需要三个内容:计算引擎、调度系统和元数据管理。

在大规模的非实时数据计算中,目前仍采用Hive和spark引擎。 Hive是基于MapReduce的体系结构,稳定可靠,但计算速度慢; Spark是基于内存的计算,一般认为比MapReduce快很多,但对内存性能要求较高,存在内存溢出的风险。 Spark与hive数据源兼容。

出于稳定的考虑,建议将Hive作为日常ETL的主要计算引擎,特别是对于实时、低要求的数据。 其他引擎(如Spark )根据场景组合使用。

在实时计算引擎中,现在按照storm、spark streaming、Flink的顺序经过了3代。 Flink被阿里收购,大工厂一直在推进,社区活跃度很高,国内也有很多资源。

在调度系统中,建议使用由Linkedin开放源代码的批处理工作流任务调度器Azkaban。 https://azkaban.github.io/

为了规划数据仓库和ETL流程的元数据,需要开发自己的元数据管理系统。 元数据分为业务元数据和技术元数据。

业务元数据主要用于支持数据服务平台的Web UI上的各种业务条件选项,例如,常用的如下: 移动设备的机型、品牌、运营商、网络、价格范围、设备的物理特性、APP应用名称等。

这些元数据来自基础数据部门提供的标准库中,如品牌、价格等,可以从相应的数据表中同步或直接读取。 一些具有时间意义的元数据需要每天通过ETL处理生成,如APP应用信息。

存储在MySQL数据库中以支持APP应用程序的计算使用; 另一方面,对于在输入页上的相应条件下选择的数据,使用Redis存储,每天/每月根据MySQL数据进行加工处理,生成便于快速查询的键值对类数据,并存储在Redis中。

技术元数据。 主要包括数据仓库中的模型说明、血缘关系、变更记录、需求来源、型号字段信息等,可以详细了解数据分析师需要了解的数据仓库(3)。

数据流

根据上图可以知道数据收集、数据处理、数据表现的数据流。 通常,在实际工作中,我们在从数据源到分析报告和系统应用的过程中,主要包括数据采集同步、数据仓库存储、ETL、统计分析、向上位APP应用数据库的写入进行指标展示

这是最基础的一条线,现在还有基于数据仓库进行的数据分析挖掘工作,会基于机器学习和深度学习对已有模型数据进一步挖掘分析,形成更深层的数据应用产品。

数据应用

 

俗话说的好,“酒香也怕巷子深”。数据应用前面我们做了那么多工作为了什么,对于企业来说,我们做的每一件事情都需要体现出价值,而此时的数据应用就是大数据的价值体现。数据应用包括辅助经营分析的一些报表指标,商城上基于用户画像的个性化推送,还有各种数据分析报告等等。

 

好的数据应用一定要借助可视化显现,比如很多传统企业买的帆软,当然还有别的,不过就我经验来说,帆软是不错的。

 

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。