首页 > 编程知识 正文

storm形容词形式是什么,storm是什么意思中文

时间:2023-05-03 10:44:53 阅读:112579 作者:4308

流计算流数据

大数据包括静态和动态数据流数据大数据计算包括批量和实时计算。

所谓流数据或数据流,是指时间分布和数量无限的一系列动态数据集合数据记录是流数据的最小构成单位。

流媒体数据的特征

-数据持续快速达到潜在大小可能是无限的。

-数据源有很多复杂的格式。

-数据量很大,但不太注意存储。 流数据中的元素被处理、销毁或存储在归档存储中。

重视数据的整体价值不过分关注个别数据。

-数据顺序颠倒或不完整的系统无法控制新到达的数据元素的处理顺序。

Hadoop是一种典型的批处理模型,HDFS和HBase存储大量静态数据,MapReduce负责批量计算大量数据。

流数据必须采用实时计算。

流计算继承了数据价值随时间推移而下降的基本理念。

数据采集系统的基本体系结构有三种

1、代理积极收集数据,并将数据推送至收集器部分。

2、Collector接收多个代理的数据,实现有序、可靠、高性能的传输。

3、Store保存收集器传输的数据。

对于流计算,通常不在Store部分存储数据,而是将收集到的数据直接发送到流计算平台进行实时计算。

开源流计算框架Storm的基本配置

Twitter Storm是一个免费的开源分布式实时计算系统。

Storm是抽象出几种设计思想的主要术语,如流、流、布尔、拓扑、流组。

流传输

流数据流是无限的Tuple序列Tuple。 也就是说,元组是元素的有序列表。 每个Tuple都具有一个名称类型,值列表中的每个值都可以使用基本类型/字符类型/字节数组/其他序列化类型。 这些Tuple序列在所有分布式的中并行创建和处理。

可以理解为ListListObject

Spouts

Storm认为所有流都有源,并将该源抽象为Spouts。 Spouts从外部读取流数据,并继续发行Tuple。

布尔特斯

Storm将流的状态迁移过程抽象为Bolts。 Bolts可以处理Tuple,也可以将处理后的Tuple作为新流发送到其他Bolts。 所有Tuple处理逻辑都封装在Bolts中,可以执行过滤、聚合、查询等操作。

拓扑

Storm将Spouts和Bolts组成的网络抽象为TopologyTopology是Storm中最高级别的抽象概念,可以提交给Storm集群执行。 Topology指示Bolt订阅了哪个流,因为流转换贴图中间的节点是Spout或Bolt贴图的边。 当Spout或Bolt发送元组Tuple时,元组Tuple将发送到订阅流的每个Bolt进行处理。

Storm中的Topology定义只是定义了Thrift,其中一些Thrift结构Thrift是基于二进制的高性能通信中间件,Thrift支持各种编程语言,并且使用了各种编程语言

流组

用于指示拓扑如何在两个组件(如Spout和Bolt )之间或在不同的Bolt之间进行Tuple传输。

框架的设计在Hadoop中运行MapReduce作业,在Storm中运行Topology。 但是,两者任务差别最大的主要区别是,MapReduce作业最终完成计算并结束运行,而Topology继续处理消息。

Storm群集采用名为“Master-Worker”的节点方法,Master节点运行名为“Nimbus”的守护程序,就像Hadoop中的JobTracker一样,将代码分发到整个群集,然后再运行工作每个工作器节点运行一个名为" Supervisor "的守护进程,以监听分配给计算机的工作。 这意味着您将根据Nimbus分配的任务来确定工作器进程的启动或通知。

Nimbus后台进程和Supervisor后台进程都使用Zookeeper将状态信息存储在Zookeeper上,或本地Dell,而不是快速失败、无状态主节点和工作器直接通信

所谓应用场景,例如是微博中的实时话题、业务监视、广告推荐、用户的实时分析等业务场景。

Storm与Spark Streaming的比较

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。