数据管理与大数据技术,大数据分析数据分类

数据处理分类篇

作者| WenasWei

一、数据发展大数据是这个时代最热门的话题。大数据(big data )是指在一定时间范围内无法由常规软件工具捕获、管理和处理的数据集合，需要新的处理模型才能具有更强的决策力、洞察力和流程优化能力，量巨大、高度

其实数据一直都有。只是记录数据的方法发生了变化。自古以来，很容易就可以分为四个阶段：书籍承载阶段、计算机存储阶段、互联网阶段、物联网阶段。

1.1书籍职业阶段

第一个阶段，以前没有IT之前就使用图书等记录数据，这时候收集数据的手段单一，人生产数据的工作效率低，受限于共享的不便，数据单一，量少。此时数据的特点是少量且价值密度高。

1.2计算机存储阶段

第二个阶段，有了IT技术，我们会将我们的工作和个人数据记录在服务器上。这也就是信息化。例如，银行的业务系统、企业的办公自动化系统等，信息化带来的各种业务数据、业务数据开始进入服务器。此时的数据呈现出业务性的特征。

[导出外链图像失败。源站可能有防盗链机制。建议保存图像并直接上传。 (img-pXwO0MBy-1619114083968 ) ) 3359 note.Youdao.com/yws/public/resource/945 AC 066666

1.3互联网阶段

在第三个阶段，互联网出现后，我们的数据开始变大，共享的文档、照片、视频等数据开始出现。此时，数据开始呈现出大量、多样性、价值密度低等特点。

1.4物联网阶段

第四个阶段是我们现在所处的阶段，这其实也是新技术和环境的变化引起的现象。物联网的兴起，带来了gps装置、心率和血压监测装置等大量高速的物质相关数据。得益于移动互联网，以手机为终端实时生成了大量的语音、照片、视频等多种数据。例如，我们每天都通过聊天交流和付款。这个阶段数据的特点是随时随地都会产生数据。真的具备4V的特征。

批处理数据处理计算批处理大数据也称为历史大数据，可以理解为一系列相关任务按顺序执行，或者并行执行。批输入的是在一段时间内收集数据。也可以为以下每个批输入逐批输出：

在大多数情况下，批处理输入和输出数据是有边界的数据。

2.1什么是有边界的数据

有边界数据是指实际存储的数据，如数据库数据或csv数据

就交易数据而言，如果沿着一定的时间窗提取数据的一部分，则提取的数据中也有边界数据。例如，提取并处理2019年08月19日的数据，提取的地数据是有边界的数据。

其中边界不固定，有：小时、地域空间、种类划分等多种边界划分。

2.2批处理的含义

批处理一般解决离线计算数据量大、计算时间慢的问题，而流处理相反是为了解决实时计算和实时计算的问题，当然，如果有实时要求，处理的数据量

复杂的批量数据处理通常涉及几十分钟到几个小时，甚至几天、几周。

2.3批量式处理场景和技术

批处理系统体系结构通常是在以下APP应用程序场景中设计的：

日志分析:日志系统是在一段时间内收集的。日志系统的数据处理分析在不同的时间内运行，以获得系统的关键指标，如前面提到的准确性和系统容量。计费的应用程序:计费APP应用程序计算服务在一段时间内的利用率，并生成计费信息，如支付宝(Alipay )花呗的还款发票。数据仓库:数据仓库的主要目标是根据收集的数据事件时间将数据信息整合到静态快照(static snapshot )中，以便每周、每月、季度报告等开源框架(如当前的Apache Hadoop和Apache Spark )支持这种大数据批处理体系结构。

三流式数据处理计算流式大数据又称实时大数据，流式大数据实时处理是大数据时代信息化的重要线索。

采用其“事中”甚至“事前”模式实现感知、分析、判断、决策等功能的智能系统，需要流大数据实时处理平台的支持。此外，流大数据的实时处理还可以为大数据驱动的深度学习提供计算框架支持。 “流多维数据集”流大数据实时处理平台支持开发融合逻辑推理、概率统计、众包、神经网络等多种形式的新一代人工智能集成计算框架。

3.1流量计算和实时计算有什么区别

流计算对数据作为数据流输入、处理和输出感兴趣，它本身并不强调数据从入站到最终结果中所反映的延迟，而是比实时计算稍微迟钝，但比离线计算更敏感

实时计算中强调的是从数据的产生到影响

最终结果的时延要低，本身并不关心数据是以何种形式在系统中传递。实际应用中，由于批处理系统往往要求等待一批数据到齐才开始处理，而流式计算系统通常能够对每条记录立即产生输出）。

3.2 实时计算，强调的是实时

实时计算一般都是针对海量数据进行的，一般要求为秒级，甚至数据量大且无法或没必要预算，但要求对用户的响应时间是实时的；实时计算主要分为两块: 数据的实时入库、数据的实时计算；数据源是实时的不间断的，要求用户的响应时间也是实时的。

比如专注的招牌要查看他去年一年的消费总额度，那么当专注的招牌点下统计按钮的时候，服务器集群就在噼里啪啦的赶紧计算了，必须在专注的招牌能够忍耐的时间范围内得出结果。这种计算的背后实现，一般都是冗余 + 各种高性能部件在做支撑，算法也对实时性做了优化，但实时计算并没有强调用那种算法，只要能保证高实时性的就行。

基于实时数据流的数据处理（streaming data processing），通常的时间跨度在数百毫秒到数秒之间。

3.3 流式计算，强调的是计算方法

流式计算，比实时计算要稍微迟钝些，但比离线计算又实时的多，而且主要强调的是计算方法。

比如，服务器端，有一个值，是记录专注的招牌订单数量。当专注的招牌每买一件东西后，服务端立即发出一个交易成功的事件，该值接收到这个事件后就立即加1。如果用离线计算的方式来做，估计是在查询时，才慢腾腾的从低速存储中，把专注的招牌的所有订单取出来，统计数量。流式计算有点像数据库领域的触发器，又有些像事件总线、中间件之类的计算模式。

3.4 流式处理场景和技术

流式数据处理主要应用的场景：

对于大型网站的流式数据：网站的访问 PV/UV、用户访问了什么内容、搜索了什么内容等，实时的数据计算和分析可以动态实时地刷新用户访问数据，展示网站实时流量的变化情况，分析每天各小时的流量和用户分布情况物联网（IoT）：设备故障告警：极其迅速感知到故障的发生，并及时进行告警；实时监控：实时分析设备的监控数据，实现对设备各项指标的实时监控；动态跟踪：实时跟踪并显示设备（比如汽车）的位置；金融行业：欺诈探测：实时分析用户行为，并及时辨识到可疑欺诈行为；客户营销：根据用户即时的行为记录，实时为客户推荐个性化的金融产品；数据运营：根据业务需求灵活组合使用和业务集成，实现“数据驱动业务”。视频直播：实时监控：通过通过对日志文件进行实时分析，及时发现视频中顿率、延迟、丢包等问题；个性化推荐：根据视频用户的访问内容，实时为视频用户推荐个性化内容；实时统计：实时统计当前直播间运营情况，包括热门视频、用户走势等等。电商行业：个性化精准推荐：实时掌握用户的需求和喜好，进行个性化精准推荐；实时报表：多维度实时了解PVUV、销量、销售额、地域分布等；实时感知变化趋势：对商品整体的热度和关注量进行动态监测，感知商品关注度变化趋势。
几个流处理的应用场景：

代表技术主要有: Flume 实时获取数据、Kafka/metaq 实时数据存储、Apache Flink、Apache Samza、Storm/JStorm 实时数据计算、Redis 实时结果缓存、持久化存储(mysql)。

四数据处理分类关系

大数据跟我们每个人是息息相关的，你可以回想一下我们每个人每天的场景。我们带的穿戴式设备、用的智能家电、手机等设备，我们每天上下班的乘坐的交通工具，我们进入单位后的打卡数据、工作行为、上网行为、购物行为等。

在这个信息爆炸的时代我们每个人是一台生产数据的机器，全社会上的人都在源源不断地制造数据。这是个万物互联，数据连接的时代。换言之我们每个人都是大数据的缔造者，那么我们理所当然也应成为大数据的受益者。

大量的数据需要计算处理，才能为人提供价值，所以数据处理又可以分为: 批式数据处理计算、流式数据处理计算，实时数据计算和离线数据计算,历史数据和实时数据等。

包含关系:

批式数据处理计算: 计算方式的一种流式数据处理计算: 计算方式的一种历史数据 -> 批式数据处理计算/流式数据处理计算/离线计算实时数据 -> 批式数据处理计算/流式数据处理计算/实时计算离线计算 -> 批式数据处理计算/流式数据处理计算实时计算 -> 批式数据处理计算/流式数据处理计算

一句话总结：将源源不断产生的数据实时收集并实时计算，尽可能快的得到计算结果，用来支持决策。

经过介绍你不难发现，无论是批处理模式还是流处理模式，在现实中都是广泛的被使用，而采用哪种处理模式，则应当由使用场景决定。