首页 > 编程知识 正文

大数据概论期末考试,大数据架构有哪些

时间:2023-05-03 15:37:09 阅读:165599 作者:4833

大数据框架:批处理框架混合框架批处理框架批处理框架批处理框架的数据特征:有界、持久、海量

优点:处理大量数据任务

缺点:要求处理时间紧急性高的任务

例如,Apache Hadoop

流处理帧流处理模式框架特性:无数据边界适合于必须响应变动和峰值的处理

优点:处理几乎无限的数据

缺点:一次可以处理的数据少一个

例如Apache Storm和Apache Samza

混合处理框架混合处理模式框架的特点:可以同时处理批处理和流处理工作负载

优点:提供数据处理通用解决方案,提供自己的继承库、项和工具。

例如,Apache Spark和Apache Flink

kv群集就绪内存数据库

远程字典服务器(redis )是一种远程字典服务,既可以用作数据库,也可以用作缓存,属于无SQL系列数据库(non-relational )。 使用Key-Value保存的默认端口号: 6379

类型:

string字符串list链表set集合zset规则集合hash散列类型Redis具有丰富的功能,可以为每个键值设置生存时间(TTL )。 过期后会自动删除,限制数据占用的最大内存空间,并可以根据规则删除不需要的密钥。

MongoDB MongoDB是一种基于分布式文件存储的数据库,由c编写,为web APP应用提供数据存储解决方案。 关系数据库和非关系数据库之间的产品。

优点:高性能,易于部署,便于存储数据。

坏处:不擅长调查事情

采用独特的MongoDB查询方法,根据内存存储将热数据存储在物理内存中,实现高速读写。 MongoDB侧重于操作数据的APP应用系统,而Hadoop侧重于分析统计数据的APP应用。 数据分组存储在数据集中,称为集合。 存储在集合中的文档存储为键-值对。

HBase的典型面向列的分布式数据库

优点:大量数据处理、高扩展性、高性能、高可用性、稀疏矩阵的高效处理(空值不占用空间) ) ) ) ) )。

缺点:无索引,只支持Row key随机访问,不支持SQL

依赖HDFS的存储、映射就绪计算和ZooKeeper锁定服务

Hive Hive (数据仓库工具),是在HDFS、MR上构建的数据仓库框架。 提取、转换和加载数据。 这是可以保存、查询、分析保存在Hadoop中的大规模数据的结构,hive数据仓库工具将结构化的数据文件映射到数据库表,提供SQL查询功能,将SQL语句转换为MapReess

优点:适用于大数据集批处理作业,具有灵活性和可扩展性。

Hive的数据被存储在HDFS,Hive包含表、外部表、分区、桶(backet )的数据模型。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。