首页 > 编程知识 正文

大数据5大框架(大数据概念)

时间:2023-05-04 00:42:52 阅读:85706 作者:2088

大数据已经逐渐普及,作为大数据处理的关键技术,有大数据收集、大数据预处理、大数据存储与管理、大数据分析与挖掘、大数据表达与应用() ) )、大数据可视化。

一、数据采集

如何从大数据中收集有用的信息已经是大数据发展的重要因素之一。 因此,在大数据时代的背景下,如何从大数据中收集有用的信息已经是大数据发展的重要因素之一,而数据收集才是大数据产业的基础。 那么,什么是大数据收集技术呢? 也称为数据采集(DAQ )数据采集,是从传感器和其他被测设备等模拟和数字被测单元自动采集信息的过程。

数据分类在下一代数据体系中,可以将传统数据体系中未考虑的新数据源汇总分类,分为在线行为数据和内容数据两大类。

在线行为数据:页面数据、交互数据、表单数据、会话数据等。

内容数据: APP日志、电子文档、机器数据、音频数据、社交媒体数据等。

大数据的主要来源(人、环境、物体等、互联网、物联网等) :

1 )商业数据

2 )互联网数据

3 )传感器数据

数据收集和大数据收集的区别

传统的数据收集

1 .来源单一,数据量比大数据小

2 .结构单一

3 .关系数据库和并行数据仓库

大数据的数据收集

1 .来源广泛,数据量庞大

2 .包含结构化、半结构化、非结构化的数据类型丰富

3 .分布式数据库

传统数据收集不足

传统的数据收集源单一,数据量也相对较少,大多可以使用关系数据库和并行数据仓库进行处理。

在通过并行计算提高数据处理速度方面,传统的并行数据库技术追求高一致性和容错性,根据CAP理论,很难保证可用性和可扩展性

大数据采集的新方法

系统日志的收集方法

许多互联网公司都有自己的海量数据收集工具,大多用于Hadoop的Chukwa、Cloudera的Flume、Facebook的Scribe等系统日志收集。 这些工具采用分布式体系结构,能够满足每秒数百MB的日志数据收集和传输需求。

网络数据收集方法

网络数据收集是指通过网络爬虫和网站公开API等从网站获取数据信息。

该方法可以从网页中提取非结构化数据,保存为统一的本地数据文件,并以结构化的方式保存。

支持收集图像、音频和视频等文件或附件,并可以自动将附件与正文关联起来。

除了网络中包含的内容以外,可以使用DPI和DFI等带宽管理技术来处理网络流量的收集。

其他数据收集方法

对于企业的生产经营数据和学科的研究数据等要求机密性的数据,可以与企业和研究机构合作,使用特定的系统接口等相关方式收集数据。

二、大数据预处理

高质量的决策必须依赖高质量的数据,但从现实世界收集的数据大多是不完整、结构不一致、包含噪声的污浊数据,不能直接用于数据分析和挖掘。 数据预处理是指对收集到的原始数据进行清洗、填补、平滑化、整合、标准化、一致性检查等。 此过程有助于将杂乱的数据转换为相对单一、易于处理的排列,从而实现快速的分析处理。

数据预处理通常包括三个部分:数据清理、数据整合、转换和数据规约。

一)数据清理

并不是所有的数据都是有价值的,有些数据不是我们关心的内容,有些甚至是完全错误的干扰项目。 因此,必须对数据进行滤波,除去噪声,提取有效的数据。

数据清理主要包括缺失值处理(缺少感兴趣的属性)、噪声数据处理)数据有误或偏离期望值的数据、不一致数据处理。

缺失的数据可以用全局常量、属性平均值、可能的值填充,也可以直接忽略数据等方法处理。

噪声数据可以手动修改不匹配的数据,这些数据可以通过分栏(将原始数据分组,平滑各组中的数据)、聚类、计算机手动检查、回归等方法去除噪声。

二)数据整合与转换

数据整合是指整合多个数据源的数据,并将其存储在一致的数据库中。 在这个过程中,需要重点解决模式匹配、数据冗余、数据值冲突检测和处理这三个问题。

由于来自多个数据集合的数据具有不同的名称,因此等效实体通常具有不同的名称。 如何让更多的人

个实体的不同数据进行匹配是如何处理好数据集成的首要问题。

数据冗余可能来源于数据属性命名的不一致,在解决数据冗余的过程中,可以利用鳗鱼秀发积矩Ra,b来衡量数值属性,绝对值越大表明两者之间相关性越强。对于离散数据可以利用卡方检验来检测两个属性之间的关联。

数据集成中最后一个重要问题便是数据值冲突问题,主要表现为来源不同的统一实体具有不同的数据值。

为了更好地对数据源中的数据进行挖掘,数据变换是必然结果。其主要过程有平滑、聚集、数据泛化(使用高层的概念来替换低层或原始数据)、规范化(对数据)以及属性构造等。

三)、数据规约

数据规约主要包括:数据方聚集、维规约、数据压缩、数值规约和概念分层等。

假若根据业务需求,从数据仓库中获取了分析所需要的数据,这个数据集可能非常庞大,而在海量数据上进行数据分析和数据挖掘的成本又极高。使用数据规约技术则可以实现数据集的规约表示,使得数据集变小的同时仍然近于保持原数据的完整性。在规约后的数据集上进行挖掘,依然能够得到与使用原数据集近乎相同的分析结果。

三、存储及管理技术

在大数据时代的背景下,海量的数据整理成为了各个企业急需解决的问题。

云计算技术、物联网等技术快速发展,多样化已经成为数据信息的一项显著特点,为充分发挥信息应用价值,有效存储已经成为人们关注的热点。

为了有效应对现实世界中复杂多样性的大数据处理需求,需要针对不同的大数据应用特征,从多个角度、多个层次对大数据进行存储和管理。

一)大数据面临的存储管理问题

●存储规模大

大数据的一个显著特征就是数据量大,起始计算量单位至少是PB,甚至会采用更大的单位EB或ZB,导致存储规模相当大。

●种类和来源多样化,存储管理复杂

目前,大数据主要来源于搜索引擎服务、电子商务、社交网络、音视频、在线服务、个人数据业务、地理信息数据、传统企业、公共机构等领域。

因此数据呈现方法众多,可以是结构化、半结构化和非结构化的数据形态,不仅使原有的存储模式无法满足数据时代的需求,还导致存储管理更加复杂。

●对数据服务的种类和水平要求高

大数据的价值密度相对较低,以及数据增长速度快、处理速度快、时效性要求也高,在这种情况下如何结合实际的业务,有效地组织管理、存储这些数据以能从浩瀚的数据中,挖掘其更深层次的数据价值,需要亟待解决。

大规模的数据资源蕴含着巨大的社会价值,有效管理数据,对国家治理、社会管理、企业决策和个人生活、学习将带来巨大的作用和影响,因此在大数据时代,必须解决海量数据的高效存储问题。

二)我国大数据的存储及处理能力挑战

当前,我国大数据存储、分析和处理的能力还很薄弱,与大数据相关的技术和工具的运用也相当不成熟,大部分企业仍处于IT产业链的低端。

我国在数据库、数据仓库、数据挖掘以及云计算等领域的技术,普遍落后于国外先进水平。

在大数据存储方面,数据的爆炸式增长,数据来源的极其丰富和数据类型的多种多样,使数据存储量更庞大,对数据展现的要求更高。而目前我国传统的数据库,还难以存储如此巨大的数据量。

因此,如何提高我国对大数据资源的存储和整合能力,实现从大数据中发现、挖掘出有价值的信息和知识,是当前我国大数据存储和处理所面临的挑战。

三)大数据存储管理技术

近年来,企业也从大数据中受益,大幅度推动支出和投资,并允许他们与规模更大的企业进行竞争。

所有事实和数字的存储和管理逐渐变得更加容易。以下是有效存储和管理大数据的三种方式。

●不断加密

任何类型的数据对于任何一个企业来说都是至关重要的,而且通常被认为是私有的,并且在他们自己掌控的范围内是安全的。

然而,黑客攻击经常被覆盖在业务故障中,最新的网络攻击活动在新闻报道不断充斥。因此,许多公司感到很难感到安全,尤其是当一些行业巨头经常成为攻击目标时。

随着企业为保护资产全面开展工作,加密技术成为打击网络威胁的可行途径。将所有内容转换为代码,使用加密信息,只有收件人可以解码。

如果没有其他的要求,则加密保护数据传输,增强在数字传输中有效地到达正确人群的机会。

●仓库存储

大数据似乎难以管理,就像一个永无休止统计数据的复杂的漩涡。

因此,将信息精简到单一的公司位置似乎是明智的,这是一个仓库,其中所有的数据和服务器都可以被充分地规划指定。

然而,有些报告指出了反对这种方法的论据,指出即使是最大的存储中心,大数据的指数增长也不再能维持。

然而,在某些情况下,企业可能会租用一个仓库来存储大量数据,在大数据超出的情况下,这是一个临时的解决方案,而LCP属性提供了一些很好的机会。

毕竟,企业不会立即被大量的数据所淹没,因此,为物理机器租用仓库至少在短期内是可行的。这是一个简单有效的解决方案,但并不是永久的成本承诺。

●备份服务 - 云端

除了所有技术的发展,大数据增长得更快,以这样的速度,世界上所有的机器和仓库都无法完全容纳它。

因此,由于云存储服务推动了数字化转型,云计算的应用越来越繁荣。数据在一个位置不再受到风险控制,并随时随地可以访问,大型云计算公司(如谷歌云)将会更多地访问基本统计信息。

如果出现网络攻击,云端将以A迁移到B的方式提供独一无二的服务。

三)结论

目前原有的存储模式以及跟不上时代的步伐,无法满足数据时代的需求,导致信息处理技术无法承载信息的负荷量。

这就需要对数据的存储技术和存储模式进行创新与研究,跟上数字化存储的技术的发展步伐,给用户提供一个具有高质量的数据存储体验。

根据大数据的特点的每一种技术都各有所长,彼此都有各自的市场空间,在很长的一段时间内,满足不同应用的差异化需求。

但为了更好的满足大数据时代的各种非结构化数据的存储需求,数据管理和存储技术仍需进一步改进和发展。

可能有些中小企业无法自己快速的获取自己的所需的数据进行分析,这就需要到了第三方的数据平台进行大数据分析。

四、大数据分析及挖掘技术

数据挖掘(Data Mining)是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

一)数据挖掘对象:根据信息存储格式,用于挖掘的对象有关系数据库、面向对象数据库、数据仓库、文本数据源、多媒体数据库、空间数据库、时态数据库、异质数据库以及Internet等。

二)数据挖掘流程

1)定义问题:清晰地定义出业务问题,确定数据挖掘的目的。

2)数据准备:数据准备包括:选择数据–在大型数据库和数据仓库目标中 提取数据挖掘的目标数据集;

3)数据预处理–进行数据再加工,包括检查数据的完整性及数据的一致性、去噪声,填补丢失的域,删除无效数据等。

4)数据挖掘:根据数据功能的类型和和数据的特点选择相应的算法,在净化和转换过的数据集上进行数据挖掘。

5)结果分析:对数据挖掘的结果进行解释和评价,转换成为能够最终被用户理解的知识。

三)数据挖掘分类

直接数据挖掘:目标是利用可用的数据建立一个模型,这个模型对剩余的数据,对一个特定的变量(可以理解成数据库中表的属性,即列)进行描述。

间接数据挖掘:目标中没有选出某一具体的变量,用模型进行描述;而是在所有的变量中建立起某种关系。

四)数据挖掘的方法

1、神经网络方法

神经网络由于本身良好的鲁棒性、自组织自适应性、并行处理、分布存储和高度容错等特性非常适合解决数据挖掘的问题,因此近年来越来越受到人们的关注。

2、遗传算法

遗传算法是一种基于生物自然选择与遗传机理的随机搜索算法,是一种仿生全局优化方法。遗传算法具有的隐含并行性、易于和其它模型结合等性质使得它在数据挖掘中被加以应用。

3、决策树方法

决策树是一种常用于预测模型的算法,它通过将大量数据有目的分类,从中找到一些有价值的,潜在的信息。它的主要优点是描述简单,分类速度快,特别适合大规模的数据处理。

粗集理论是一种研究不精确、不确定知识的数学工具。粗集方法有几个优点:不需要给出额外信息;简化输入信息的表达空间;算法简单,易于操作。粗集处理的对象是类似二维关系表的信息表。

4、覆盖正例排斥反例方法

它是利用覆盖所有正例、排斥所有反例的思想来寻找规则。首先在正例集合中任选一个种子,到反例集合中逐个比较。与字段取值构成的选择子相容则舍去,相反则保留。按此思想循环所有正例种子,将得到正例的规则(选择子的合取式)。

5、统计分析方法

在数据库字段项之间存在两种关系:函数关系和相关关系,对它们的分析可采用统计学方法,即利用统计学原理对数据库中的信息进行分析。可进行常用统计、回归分析、相关分析、差异分析等。

6、模糊集方法

即利用模糊集合理论对实际问题进行模糊评判、模糊决策、模糊模式识别和模糊聚类分析。系统的复杂性越高,模糊性越强,一般模糊集合理论是用隶属度来刻画模糊事物的亦此亦彼性的。

大数发掘技术,目前,还需要改进已有数据挖掘和机器学习技术;开发数据网络挖掘、特异群组挖掘、图挖掘等新型数据挖掘技术;突破基于对象的数据连接、相似性连接等大数据融合技术;突破用户兴趣分析、网络行为分析、情感语义分析等面向领域的大数据挖掘技术。

五)着重突破技术

1. 可视化分析

不论是分析专家,还是傲娇的水壶,在分析大数据时,最基本的要求就是对数据进行可视化分析。经过可视化分析后,大数据的特点可以直观地呈现出来,将单一的表格变为丰富多彩的图形模式,简单明了、清晰直观,更易于读者接受。

2. 数据挖掘算法

数据挖掘算法是根据数据创建数据挖掘模型的一组试探法和计算。为了创建该模型,算法将首先分析用户提供的数据,针对特定类型的模式和趋势进行查找。

并使用分析结果定义用于创建挖掘模型的最佳参数,将这些参数应用于整个数据集,以便提取可行模式和详细统计信息。

大数据分析的理论核心就是数据挖掘算法,数据挖掘的算法多种多样,不同的算法基于不同的数据类型和格式会呈现出数据所具备的不同特点。各类统计方法都能深入数据内部,挖掘出数据的价值。

为特定的分析任务选择最佳算法极具挑战性,使用不同的算法执行同样的任务,会生成不同的结果,而某些算法还会对同一个问题生成多种类型的结果。

3. 预测性分析

大数据分析最重要的应用领域之一就是预测性分析,预测性分析结合了多种高级分析功能,包括特别统计分析、预测建模、数据挖掘、文本分析、实体分析、优化、实时评分、机器学习等。

从纷繁的数据中挖掘出其特点,可以帮助我们了解目前状况以及确定下一步的行动方案,从依靠猜测进行决策转变为依靠预测进行决策。它可帮助分析用户的结构化和非结构化数据中的趋势、模式和关系,运用这些指标来洞察预测将来事件,并作出相应的措施。

4. 语义引擎

非结构化数据的多元化给数据分析带来新的挑战,我们需要一套工具系统地去分析,提炼数据。语义引擎是语义技术最直接的应用,可以将人们从繁琐的搜索条目中解放出来,让用户更快、更准确、更全面地获得所需信息,提高用户的互联网体验。

5. 数据质量和数据管理

大数据分析离不开数据质量和数据管理,高质量的数据和有效的数据管理无论是在学术研究还是在商业应用领域都极其重要,各个领域都需要保证分析结果的真实性和价值性。

可能有些中小企业无法自己快速的获取自己的所需的数据进行分析,这就需要到了第三方的数据平台进行大数据分析。

五、大数据应用

大数据技术能够将隐藏于海量数据中的信息和知识挖掘出来,为人类的社会经济活动提供依据,从而提高各个领域的运行效率,大大提高整个社会经济的集约化程度。

最后,是展现,主要是可视化,现在有很多工具,可以直接展现出各种静态和动态效果,非常酷炫。在此不做描述。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。