中国第三产业发展历程,数据分析综述

工业大数据的目的是改变传统工业价值链从生产侧向消费侧、从上游向下游推进的模式，实现以顾客价值为核心的定制化产品和服务以及与之相适应的全产业链协同优化。因此，工业大数据应满足用户需求定义、工业智能制造、活动协同优化三方面的应用。

这些应用需要产业大数据落地的相应技术框架支持。如今，笨火教授提出的“5C”体系结构体现了工业大数据“数据-知识-应用”的信息体系结构，而工业互联网参考体系结构(IIRA )和工业4.0参考体系结构(IIRA ) 例如，通用的Predix、三一的根云等。

我们知道技术框架应该由应用场景的特点决定。目前，产业大数据还处于产业初级阶段，对产业大数据应用场景的认识还不太深，但大数据在互联网上的应用已经具备了成熟的技术体系和应用框架。因此，本文主要通过比较产业应用场景与网络APP应用场景的差异，修改互联网大数据的相关应用技术框架，以期满足产业大数据对技术框架的要求。

产业大数据和互联网大数据的技术结构均具备数据环境、知识环境和应用环境三层，如下图所示。

数据环境

从数据环境来看，首先，互联网大数据和产业大数据具有不同的特征。如下表所示：

由于这种数据差异，互联网大数据多关注数据的持久化，其技术架构侧重于实现异构数据的存储、访问一致性，满足多负载并行读取能力。因此，互联网产生了许多非关系数据库、实时数据库和分布式文件存储技术。

工业大数据也关注数据可持续发展，但工业大数据部署APP应用的原则之一是将APP应用尽可能靠近数据来源部署。这是因为越接近配置，可靠性、实时性越高。由于需要根据业务需求进行导入，因此很多APP应用被导入到设备、生产现场等。因此，与集中存储互联网大数据的方式相比，工业大数据对数据存储更加离散，在空间形成跨越网络的分布式存储，且各数据节点对数据存储、访问的能力要求不同。例如，以一家公司正在实施的智能风场项目为例，风机中引入的采集终端需要存储结构化、要求实时性的技术方案

;在相应业务端，如生产系统或调度系统，数据是半结构化且实时性要求一般;在公司数据中心，数据是非结构化且需要语义组织。因此，需要抽象和设计一个统一的数据持久化环境，为工业大数据的上层应用提供基于语义的数据发现和相适宜的访问能力。

另外，工业大数据的数据环境，更关注数据采集的能力。工业大数据的数据采集依赖于物联网(IOT)的实现，IOT关注的采集的可靠性，实现数据接入的总线化，但工业大数据对IOT提出了更多的需要。以在某一公司实施的智能风场项目为例，在设计数据采集时，考虑了如下一系列的需要。

一、IOT终端需要具备边缘计算能力，首先是风机高频运行状态数据没必要全部上传，只需要上传从风机运行状态数据提取的相应特征数据，在必要时，如发生故障需要原始数据进行深入分析或者为训练模型需要原始数据，才需要终端上传数据。因此IOT终端需要运行特征提取算法;

二、IOT终端需要具备对采集数据的辨伪能力，需要对数据质量进行预判和修复。在采集风机运行数据时，数据大多是通过传感器，传感器本身存在故障、标定、存在寿命等问题，产生错误数据的概率较大，而坏数据对基于物理关联和因果分析的模型影响相对于互联网应用基于统计分析的影响更高;

三、IOT需要提供更智能的接入能力，形成数据生态环境，因为工业数据不会自发形成，不像互联网一样本身在线，需要解决传感器、物联网、嵌入式智能等在边缘端需要解决的技术问题;

四、IOT需要提供基于语义的定义，是因为作为工业大数据应用的最基本数据产生源，它是物理世界实体的高度抽象，能够映射物理世界实体的特征、实体间的关系，能够发现和被发现，提供互操作性，从而形成物理世界在虚拟世界里的组织和协作能力。

知识环境

工业大数据和互联网大数据都需要对数据进行分析、处理，以获得相应的知识，用以支撑上层业务应用。它们的差异性首先体现在模型特性上面。如下表所示：

由模型的差异性，在工业大数据和互联网大数据应用中，对模型执行的环境要求有很大区别。

目前，在互联网环境中，一般都是基于云平台，使用hadoop生态环境进行搭建，通过流式或离线计算对数据进行处理，采用容器技术运行相应的计算模型，统一对外提供知识数据的访问，其根本是在于其服务或者算法的通用性和可复制性，当一个服务满足不了外部需求，可以通过容器方便的产生副本，扩展其提供外部访问的能力，而微服务、无服务等技术架构更多是基于对服务的结构、协作等的重新定义，来解决服务响应、资源使用、实施、并行等相关非功能特性。而在工业大数据中，绝大多数模型对外提供服务并不用在意访问的并发性，比如风场智能运维系统对某个风机的健康状态评估，使用其评估结果的外部访问仅限于几个终端，毕竟是只有与风机相关的干涉人才会需要。因此，工业大数据应用所需要的模型执行平台关注的是单例执行效率以及类型的扩展性。

另外，工业大数据应用的模型相关性较强。比如，在风场智能运维系统中，对风机的状态评估，依赖于对其组成的多个部件的健康评估，对风机发电效率预测需要结合环境、风机健康状态的结果。因此，工业大数据应用所需要的模型执行平台还需要提供较好的模型执行协作环境。

因此，工业大数据的知识环境的技术平台是CPS，云计算是CPS的一个组成部分。CPS关注的是物理实体映射的逻辑实体的管理，提供逻辑实体的关系、协作，以对称的方式来演进，体现与物理实体的相关性，实现知识的挖掘。

应用环境

互联网大数据的应用可以充分利用云平台相关的技术提供集中式的服务环境，对外以SaaS的方式提供应用功能，但工业大数据的应用多样，既有对物(设备、生产线)的嵌入式应用，也有与传统信息系统相似的应用，如风场的维护排程优化、设备状态监控，也有与互联网大数据应用相同的SaaS应用，如Predix。

因此，工业大数据的应用环境包括了嵌入式环境、单机环境、集群或云平台环境，需要考虑应用支撑环境的多样性统一;其次，工业大数据的应用部署可以在生产一线、控制中心、数据中心等地域分离的地方，其应用环境也需要提供应用跨域的协作能力和应用从故障中恢复的能力;工业大数据的应用环境不仅需要提供服务本身的弹性扩展(并发能力和瞬时负载能力)，还需要提供服务的(类型、行为、资源要求)多样性扩展。

总之，由互联网推动的大数据、智能应用等已成熟的技术体系和应用框架，是构建工业大数据应用的最好参考，是工业大数据技术实施的基础。但建立有效的工业大数据应用，离不开工业应用技术的核心——CPS平台，并在相应的信息架构、资源架构等方面，做出合适的设计和实践。

原文发布时间为：2017-10-25

本文作者：调皮的抽屉

本文来自云栖社区合作伙伴“51CTO”，了解相关信息可以关注。