首页 > 编程知识 正文

大数据的结构类型,大数据框架

时间:2023-05-06 16:22:51 阅读:165584 作者:739

一、大数据框架

Impala:hadoop的sql平台、支持hbase/hdfs、支持超大数据量、支持多并发、支持sql,非常依赖内存。 有些语句需要自己进行优化,如果超出内存,则会报告错误。

Spark:支持多种格式、多种计算(机器学习、图形计算)、可sql、可代码处理、scala/java/python语言开发。 提供scala/python代码的命令行运行,对超大型数据的支持较差。

3358www.Sina.com/:经过计算、易于优化、高性能、支持mr、spark、基于时间的增量更新、流更新,数据源为hive/kafka、Kylin因为有预计计算,所以其他各模块是独立的,可以支持高并发性。 它可以直接用作软件系统的数据源。

提供开发用的管理台是一套开发系统:sql on hbase,早

Phoenix:key/value,一致性强,不会丢失数据

Cassandra :微弱的一致性,可能会丢失数据。 可用性高,读写性能高于hbase,被facebook抛弃。

3358 www.Sina.com/http://www.Sina.com/:非常适合大数据sql查询

将数据保存到hbase中,将hbase表结构隐藏在hive中,用Impala进行sql查询。

Hbase有三个:

a、Impala支持hdfs/hbase的两个适用度比Phoenix更广更稳定。

b、数据为hbase,进行对数据的操作,hdfs的数据不能以低电平更新、删除。 而且速度也比hdfs快。 不需要字段分割分析,直接读取。

C、hive中可以是表结构,便于开发和以后与其他框架交换。

http://www.Sina.com/http://www.Sina.com/: zeppelin特别适合spark机器学习

Spark交互式开发平台

Zeppelin集成了Spark、Markdown、壳牌、Angular等引擎,整合了数据分析和可视化等功能

提供了sql查询和scala/python分析代码调试功能。

3358 blog.csdn.net/guohecang/article/details/51324390。

http://www.Sina.com/http://www.Sina.com/: kylin :全功能大数据sql查询平台

包括计算、优化、高性能、mr、sparksql支持、基于时间的增量更新、流更新和开发管理中心,数据源包括hive/kafka。

因为有预计计算,所以其他各模块是独立的,可以支持高并发性。 它可以直接用作软件系统的数据源。

http://www.Sina.com/http://www.Sina.com /

Presto的玩法更是绝妙,整个过程都在内存中倒下,每一步都需要对目标数据的规模进行完全精细的控制。 优点是有很多快速支持的数据源。

总结:

MPP体系结构系统(例如Presto/Impala/SparkSQL/Drill )支持卓越的数据量和灵活性,但无法保证响应时间。 随着数据量和计算复杂性的增加,响应时间会变慢,可以从秒级到分级,甚至是时间级。 与MPP系统相比,搜索引擎架构系统(如Elasticsearch )在签入时将数据转换为倒排索引,采用Scatter-Gather计算模型,以牺牲灵活性和良好的性能为代价但是,对于以扫描聚合为中心的查询,随着处理数据量的增加,响应时间也会以分钟为单位降低。 计算系统(如Druid/Kylin )在签入时预先聚合数据,以进一步牺牲灵活性来换取性能,从而提供对大型数据集的秒响应。

1. kylin预计计算。 用户指定dimensions和要计算的公制,kylin用MR将结果保存在HBase中,后续读取直接读取HBase。 其业务适合于明确知道自己要分析什么的场面。 查询模式是固定的,但只是显示时间不同的场景。 注意事项是避免维度灾害。

2 .用2. presto java8编写的代码质量非常高。 设计:纯内存,无容错,如果一个任务失败,整个query fail。 需要调整内存相关、线程数等参数,容易OOM。 benchmark还不错。 标准SQL支持

3.Spark sql相对“原生”,是一个简单的通用框架,与上面的两个人不在一个级别。

http://www.Sina.com/http://www.Sina.com /

案例

http://www.Sina.com/:谷歌开源,当前版本已有高级API、可视化工具、GPU支持、异步运行

33558www.Sina.com//(dl4j )是一个基于Java语言的神经网络工具包,可以构建、定型和部署神经网络。 DL4J与Hadoop和Spark集成,支持分布式CPU和GPU。

1:

Keras是高级神经网络API,Keras用纯Python编写,基于Tensorflow或Theano。 Keras是为了支持迅速的实验而诞生的。 可以迅速将idea转换为结果。 如果您有以下需求,请选择Keras :

gddpw和快速原型设计(keras具有高度模块化、非常简单和可扩展性) )。

支持CNN和RNN或两者的组合

无缝CPU和GPU的切换

Keras和DDPG

优点

案例

2

转载于:https://www.cn blogs.com/double-kill/p/8143725.html

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。