首页 > 编程知识 正文

大数据采集与传统数据采集(大数据采集和处理的内容)

时间:2023-05-03 15:11:41 阅读:82745 作者:3278

资料来源:加米谷大数据

大数据收集是指从传感器和智能设备、企业在线系统、企业离线系统、社交网络和互联网平台等获取数据的过程。 数据包括许多类型的结构化、半结构化和非结构化海量数据,包括RFID数据、传感器数据、用户行为数据、社交网络交互数据和移动互联网数据。 不仅数据源种类多,而且数据种类繁杂、数据量大、产生速度快,传统的数据收集方法完全无法应对。 因此,大数据采集技术面临着许多技术难题,一方面需要在保证数据采集可靠性和效率的同时避免重复数据。

大数据分类

传统的数据采集源单一,数据量也相对较少,多采用关系数据库和并行数据仓库进行处理。 为了通过并行计算提高数据处理速度,传统的并行数据库技术追求高一致性和灵活性,难以保证可用性和可扩展性。 在大数据体系中,传统数据分为业务数据和行业数据,传统数据体系中未考虑的新数据源有内容数据、在线行为数据、在线行为数据三种。 在以往的数据体系和新的数据体系中,数据分为以下5种。

业务数据:消费者数据、客户关系数据、库存数据、会计数据等。 行业数据:车流量数据、能耗数据、PM2.5数据等。 内容数据: APP日志、电子文档、机器数据、音频数据、社交媒体数据等。 在线行为数据:页面数据、交互数据、表单数据、会话数据、反馈数据等。 离线行动数据:车辆的位置和轨迹、用户的位置和轨迹、动物的位置和轨迹等。 大数据的主要来源如下。

企业系统:客户关系管理系统、企业资源计划系统、库存系统、销售系统等。 机械系统:智能仪表、工业设备传感器、智能设备、视频监控系统等。 互联网系统:电子商务系统、服务行业业务系统、政府监管系统等。 社交系统:微信、QQ、微博、博客、新闻网站、朋友圈等。 在大数据体系中,数据源和数据类型的关系如图1所示。 大数据从传统的企业系统中获取相关的业务数据。

图1数据源与数据类型的关系

机械系统生成的数据大致分为两种。

用智能仪表和传感器获取行业数据。 例如,通过道路的卡口设备获取车的流量数据,或通过智能仪表获取耗电量。 通过各种监视装置获取人、动物、物体的位置和轨迹信息。 互联网系统会生成相关的商业数据和在线行为数据,包括用户反馈和评价信息,以及用户购买的产品和品牌信息。 社交系统会生成大量的内容数据(如博客和照片)和在线行为数据。 因此,大数据收集和传统的数据收集有很大的区别。 从数据源方面看,传统数据采集的数据源单一,是从传统企业客户关系管理系统、企业资源规划系统和相关业务系统获取数据,而大数据采集系统包括社交系统、互联网系统和从数据量上看,互联网系统和机械系统生成的数据量远远大于企业系统的数据量。 从数据结构方面看,传统数据收集的数据都是结构化数据,但大数据收集系统需要收集大量的视频、音频、照片等非结构化数据,以及网页、博客、日志等半结构化数据。 从数据生成速度来看,传统数据收集的数据几乎都是由人的操作生成的,远远慢于机器生成数据的效率。 因此,传统的数据收集方法和大数据的方法也有根本的不同。

大数据采集方法分类

大数据收集是指利用多个数据库或存储系统,接收Web、App或传感器格式等客户端发送的数据。 例如,供应商使用传统的关系数据库MySQL和Oracle等保存各事务数据,在大数据时代,Redis、MongoDB、HBase等NoSQL数据库也经常用于数据收集, 大数据采集过程的主要特点和挑战是并发数高。 这是因为同时可能有成千上万的用户在访问和操作。 例如,火车票销售网站和淘宝的同时访问量在高峰时期可以达到数百万人,因此收集端需要引入大量的数据库,并且在这些数据库之间进行负载均衡和分片化需要深入考虑和设计数据源不同,大数据收集方法也不同。 但是,为了满足大数据收集的需要,在大数据收集时全部使用了大数据的处理模式,即MapReduce分布式并行处理模式或基于存储器的流式处理模式。 对于4个不同的数据源,大数据的采集方法有以下几种。

1. 数据库采集

传统企业使用传统的关系数据库MySQL和Oracle等存储数据。 随着大数据时代的到来,Redis、MongoDB、HBase等NoSQL数据库也经常用于数据的收集。 企业通过在收集端部署大量数据库,在这些数据库之间进行负载均衡和分片化,从而完成大数据收集工作。

2. 系统日志采集

系统日志收集主要收集公司业务平台日常产生的大量日志数据,用于离线和在线大数据分析系统。 高可用性、高可靠性、可扩展性是日志收集系统所具有的基本特征。 系统日志采集工具均采用分布式架构,可以满足每秒数百MB的日志数据采集和传输的需要。 详细信息请参见教程《系统日志采集方法》。

>

3. 网络数据采集

网络数据采集是指通过网络爬虫或网站公开 API 等方式从网站上获取数据信息的过程。网络爬虫会从一个或若干初始网页的 URL 开始,获得各个网页上的内容,并且在抓取网页的过程中,不断从当前页面上抽取新的 URL 放入队列,直到满足设置的停止条件为止。这样可将非结构化数据、半结构化数据从网页中提取出来,存储在本地的存储系统中。详细内容可参考教程《网络数据采集方法》。

4. 感知设备数据采集

感知设备数据采集是指通过传感器、摄像头和其他智能终端自动采集信号、图片或录像来获取数据。大数据智能感知系统需要实现对结构化、半结构化、非结构化的海量数据的智能化识别、定位、跟踪、接入、传输、信号转换、监控、初步处理和管理等。其关键技术包括针对大数据源的智能识别、感知、适配、传输、接入等。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。