首页 > 编程知识 正文

大数据采集的应用(大数据的采集主要有几种来源)

时间:2023-05-04 11:48:42 阅读:82747 作者:2153

大数据开创了大数据生产、共享、应用的时代,给技术和商务带来了巨大的变化。 麦肯锡的研究表明,在医疗、零售和制造业领域,大数据每年可提高劳动生产率0.5-1个百分点。 大数据在核心领域的渗透速度是有目共睹的,但调查显示,未使用的信息比例高达99.4%,高价值的信息往往无法收集。 因此,在大数据时代的背景下,如何从大数据中收集有用的信息已经是大数据发展的重要因素之一,什么是大数据收集技术呢?

什么是数据收集?

数据采集(DAQ ),也称为数据采集,是从传感器和其他被测设备等模拟和数字被测单元自动采集信息的过程。 数据分类在下一代数据体系中,可以将传统数据体系中未考虑的新数据源汇总分类,分为在线行为数据和内容数据两大类。

在线行为数据:页面数据、交互数据、表单数据、会话数据等。

内容数据: APP日志、电子文档、机器数据、音频数据、社交媒体数据等。

大数据的主要来源:1)商业数据2 )互联网数据3 )传感器数据

数据收集和大数据收集的区别

传统数据收集不足

传统的数据收集源单一,数据量也相对较少,大多可以使用关系数据库和并行数据仓库进行处理。 在通过并行计算提高数据处理速度方面,传统的并行数据库技术追求高一致性和容错性,根据CAP理论,很难保证可用性和可扩展性。

大数据采集的新方法

系统日志的收集方法

许多互联网公司都有自己的海量数据收集工具,大多用于Hadoop的Chukwa、Cloudera的Flume、Facebook的Scribe等系统日志收集。 这些工具采用分布式体系结构,能够满足每秒数百MB的日志数据收集和传输需求。

网络数据收集方法

网络数据收集是指通过网络爬虫和网站公开API等从网站获取数据信息。 该方法可以从网页中提取非结构化数据,保存为统一的本地数据文件,并以结构化的方式保存。 支持收集图像、音频和视频等文件或附件,并可以自动将附件和正文关联起来。 除了网络中包含的内容以外,可以使用DPI和DFI等带宽管理技术来处理网络流量的收集。

其他数据收集方法

对于企业的生产经营数据和学科的研究数据等要求机密性的数据,可以与企业和研究机构合作,使用特定的系统接口等相关方式收集数据。

大数据采集平台

最后,介绍几种广泛的大数据采集平台以供参考。

附件框架

Flume是Apache旗下的开源,是一个可靠、可扩展、易于管理、支持客户扩展的数据收集系统。 因为Flume是使用JRuby构建的,所以它依赖于Java运行时环境。

蓝牙

Fluentd是另一个开源数据收集框架。 Fluentd是使用C/Ruby开发的,使用JSON文件统一日志数据。 支持各种类型和格式的数据源和数据输出的可插件体系结构。 最后,它还提供了高可靠性和良好的可扩展性。 Treasure Data、Inc提供了对该产品的支持和维护。

日志状态

Logstash是有名的开源数据堆栈elk(elasticsearch,Logstash,Kibana ) )中的那个l。 Logstash是用JRuby开发的,所有的运行时间都依赖于JVM。

自然转发器

Splunk是一个分布式的机器数据平台,主要有三个作用。 Search Head负责数据的检索和处理,提供检索时的信息提取。 Indexer负责数据的保存和索引,Forwarder负责数据的收集、清洗、变形,并发送到Indexer。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。