大数据的结构类型,大数据框架

一、大数据框架

Impala:hadoop的sql平台、支持hbase/hdfs、支持超大数据量、支持多并发、支持sql，非常依赖内存。有些语句需要自己进行优化，如果超出内存，则会报告错误。

Spark:支持多种格式、多种计算(机器学习、图形计算)、可sql、可代码处理、scala/java/python语言开发。提供scala/python代码的命令行运行，对超大型数据的支持较差。

3358www.Sina.com/:经过计算、易于优化、高性能、支持mr、spark、基于时间的增量更新、流更新，数据源为hive/kafka、Kylin因为有预计计算，所以其他各模块是独立的，可以支持高并发性。它可以直接用作软件系统的数据源。

提供开发用的管理台是一套开发系统:sql on hbase，早

Phoenix:key/value，一致性强，不会丢失数据

Cassandra :微弱的一致性，可能会丢失数据。可用性高，读写性能高于hbase，被facebook抛弃。

3358 www.Sina.com/http://www.Sina.com/:非常适合大数据sql查询

将数据保存到hbase中，将hbase表结构隐藏在hive中，用Impala进行sql查询。

Hbase有三个：

a、Impala支持hdfs/hbase的两个适用度比Phoenix更广更稳定。

b、数据为hbase，进行对数据的操作，hdfs的数据不能以低电平更新、删除。而且速度也比hdfs快。不需要字段分割分析，直接读取。

C、hive中可以是表结构，便于开发和以后与其他框架交换。

http://www.Sina.com/http://www.Sina.com/: zeppelin特别适合spark机器学习

Spark交互式开发平台

Zeppelin集成了Spark、Markdown、壳牌、Angular等引擎，整合了数据分析和可视化等功能

提供了sql查询和scala/python分析代码调试功能。

3358 blog.csdn.net/guohecang/article/details/51324390。

http://www.Sina.com/http://www.Sina.com/: kylin :全功能大数据sql查询平台

包括计算、优化、高性能、mr、sparksql支持、基于时间的增量更新、流更新和开发管理中心，数据源包括hive/kafka。

因为有预计计算，所以其他各模块是独立的，可以支持高并发性。它可以直接用作软件系统的数据源。

http://www.Sina.com/http://www.Sina.com /

Presto的玩法更是绝妙，整个过程都在内存中倒下，每一步都需要对目标数据的规模进行完全精细的控制。优点是有很多快速支持的数据源。

总结：

MPP体系结构系统(例如Presto/Impala/SparkSQL/Drill )支持卓越的数据量和灵活性，但无法保证响应时间。随着数据量和计算复杂性的增加，响应时间会变慢，可以从秒级到分级，甚至是时间级。与MPP系统相比，搜索引擎架构系统(如Elasticsearch )在签入时将数据转换为倒排索引，采用Scatter-Gather计算模型，以牺牲灵活性和良好的性能为代价但是，对于以扫描聚合为中心的查询，随着处理数据量的增加，响应时间也会以分钟为单位降低。计算系统(如Druid/Kylin )在签入时预先聚合数据，以进一步牺牲灵活性来换取性能，从而提供对大型数据集的秒响应。

1. kylin预计计算。用户指定dimensions和要计算的公制，kylin用MR将结果保存在HBase中，后续读取直接读取HBase。其业务适合于明确知道自己要分析什么的场面。查询模式是固定的，但只是显示时间不同的场景。注意事项是避免维度灾害。

2 .用2. presto java8编写的代码质量非常高。设计：纯内存，无容错，如果一个任务失败，整个query fail。需要调整内存相关、线程数等参数，容易OOM。 benchmark还不错。标准SQL支持

3.Spark sql相对“原生”，是一个简单的通用框架，与上面的两个人不在一个级别。

http://www.Sina.com/http://www.Sina.com /

案例

http://www.Sina.com/:谷歌开源，当前版本已有高级API、可视化工具、GPU支持、异步运行

33558www.Sina.com//(dl4j )是一个基于Java语言的神经网络工具包，可以构建、定型和部署神经网络。 DL4J与Hadoop和Spark集成，支持分布式CPU和GPU。

Keras是高级神经网络API，Keras用纯Python编写，基于Tensorflow或Theano。 Keras是为了支持迅速的实验而诞生的。可以迅速将idea转换为结果。如果您有以下需求，请选择Keras :

gddpw和快速原型设计(keras具有高度模块化、非常简单和可扩展性) )。

支持CNN和RNN或两者的组合

无缝CPU和GPU的切换

Keras和DDPG

优点

案例

转载于：https://www.cn blogs.com/double-kill/p/8143725.html