首页 > 编程知识 正文

数据分析,数据分析 数据挖掘 数据建模

时间:2023-05-05 17:55:07 阅读:141846 作者:2677

1、数据分析概述

数据分析:对大量有序和无序的数据进行信息集中集成、运算提取、展示等操作,通过这些操作找出研究对象的内在规律。

目的:揭示事物的运动、变化和发展规律。

含义:提高系统运行效率,优化系统工作流程,预测未来发展趋势。

2、发展历史

数据分析发展过程的三个阶段:

1.0商务智能(BI ) )。

通过业务智能将数据分析人员从大量粗糙的数据图表分析中解放出来,通过数据仓库整合企业数据,并使用业务智能(BI,Business Intelligence )报告工具进行美化

2.0大数据分析

随着互联网的发展,2020年全球产生的数据约为50ZB,且每年都在增长,传统的商业智能数据分析已不能满足企业对如此海量复杂的数据进行处理分析。

企业需要更强大的数据分析工具,例如支持企业大量数据执行和分析的大数据开发框架。 与商业智能报告工具相结合,可以实现数据的实时监控和展示,通过建立适合历史数据分析的预测模型,可以预测未来的趋势。

3.0数据中心

由于企业各部门业务的差异等原因,采用的数据处理系统和框架也可能不同。 这样企业各部门或不同的系统数据相互独立和隔离,无法实现企业数据的真正互操作、相互融合,难以更好地体现数据的整体价值。

互联网业内人士普遍听说过前端和后端(或称前端、后端),什么是中台? 前端是直达用户的系统,如门户网站、手机APP、公众号等后端是业务管理系统的集合,如财务系统、ERP系统和基础设施、存储计算平台等中台是前台和后台对应的概念,中台可以在数据平台和业务系统之间形成良性的闭环。

数据中心是通过数据技术,采集、计算、存储、加工大量数据,同时统一标准和口径,涉及全局数据仓库规划、规范定义、建模研发、连接抽取、运维监控等方面的数据管理体系。 数据中心作为一个整体输出统一、规范、标准化的大数据资产,为企业或客户提供高效的服务。

前台、数据中心和后台之间的关系图如下所示。

3、应用领域

数据分析已经渗透到各行各业,主要包括互联网、电子商务、金融保险、在线教育、生产制造、生物医疗、交通物流、餐饮销售、能源、城管、体育娱乐等行业。

4、开发流程

数据分析开发过程一般分为以下五个阶段,主要包括数据采集、数据处理、数据建模、数据分析、数据可视化。

数据收集:数据通常来自企业内部或外部。 企业的内部数据可以直接从系统中获取。 外部数据必须购买或通过爬虫等数据收集工具进行收集。

数据处理:获取的数据往往包含干扰数据、不完整数据,需要妥善处理数据;

数据建模:不同业务对数据的需求不同,根据相关业务或战略需求建立相应的数据模型,有针对性地进行主题分析

数据分析:根据模型中分析或计算的指标,采用相应的分析方法进行数据分析,得到目标分析结果;

数据可视化:可视化和展示数据分析结果,便于业务人员和决策者理解。

5、数据类型的结构化和非结构化

结构化数据是指以行、列等数据结构模型保存,有严密的维度划分和属性标记的数据,实验表数据、关系数据库的表记录等是结构化数据。

非结构化数据:对应于软件系统生成的日志、邮件、HTML页面、图像、网络聊天记录等结构化数据。

显然结构化数据更容易进行数据分析,许多数据分析模型只能使用结构化数据,因此遇到非结构化数据时,我们首先将非结构化数据转换为结构化数据,然后进行数据分析。

6、定性定量数据

定性数据:是描述事物属性、类别、特征的数据,不能进行加减乘除等数学计算。 一般是文字型,包括汉字、字母、数字、符号等。

定量数据:描述事物数量、大小或多少的数据,可以进行加减乘除等数学计算,一般为包括整数、浮点数等的数值型;

7、断面数据和时序数据

“截面数据”(cross section data )是在同一时间(时间或时间)截面收集的数据。 横断面数据不要求统计对象与其范围相同,但统计时间必须相同,即同一时间断面上的数据。

时间序列数据(time series data ) :在多个不同时间点收集的数据。 这种数据反映了某些东西、现象等随时间变化的状态和程度。

面板数据(Panel Data )也称为“平行数据”,按时间顺序取多个截面,这些截面的采样数据称为面板数据。 面板数据是m*n的数据矩阵,记载有n个时间节点上的、有m个对象的数据指标。

八、资料来源

的来源主要分为两大类,企业的外部来源和内部来源。

外部来源:外包采购、互联网爬网、免费开源数据等

内部来源:销售数据、社交通信数据、考勤数据、财务数据、服务器日志数据等

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。