首页 > 编程知识 正文

大数据采集技术有哪些(数据采集与清洗技术)

时间:2023-05-06 15:21:47 阅读:78352 作者:2909

1.大数据收集

大数据收集包括系统日志收集方法、网络数据收集方法(通过网络爬虫实现)、其他数据收集(通过特定接口)

1.1系统日志的收集方法

flume :分布式日志收集系统,最初由cloud era开发,现在是Apache的开源项目

Chukwa :一种开源分布式数据收集系统,是Hadoop的一部分,构建在hdfs和map/reduce框架之上

Scrible:Scribe是一个facebook开源日志收集系统,在facebook内部已经使用了很多APP应用程序

Kafka :最初是LinkedIn开发的消息系统,现在是Apache的开源项目

2数据预处理原理

数据预处理工作可以完善缺失的数据,纠正错误的数据,去除多余的数据,筛选所需的数据,进行数据整合。 数据预处理的一般方法是数据清洗、数据集创建和数据转换。

2.1数据清洗

图1

噪声的处理

图2

数据清洗可以看作是一个过程,包括检测偏差和修正偏差两个步骤。

检验偏差33到360可以利用对现有数据性质的知识来发现噪声、离群点、要考虑的罕见值。 这种知识和“关于数据的数据”称为元数据。

如果修改偏差:则在发现偏差后,通常需要定义并使用一系列变换进行修改。 但是,由于这些工具只支持有限的转换,因此经常需要为数据清洗过程中的这一步编写定制的程序

2.2数据整合

图3

2.3数据转换

图4

3 .数据仓库和ETL工具

图5

-----------------

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。