大数据的结构和特征教案,大数据的三种数据结构是什么

一方面，大数据的结构1 .大数据的结构化大数据包括结构化、半结构化和非结构化数据，非结构化数据越来越成为数据的主要部分。 IDC的调查报告显示，80%的企业数据是非结构化数据，这些数据每年以指数级增长60%。大数据是互联网发展到现阶段的表象或特征之一。没有必要把那个写成神话，或者心怀敬畏。在以云计算为代表的技术革新的大幕的支持下，这些本来很难收集和使用的数据变得容易利用了。通过各行各业的不断创新，大数据将为人类创造更多价值。

其次，寻求系统的认知大数据，必须对其进行全面细致的分解，从以下三个层面展开。

第一个层面是理论，理论是认知的必由之路，也是被广泛接受和传播的基线。这里从大数据的特征定义来理解对行业大数据的整体刻画和定性；从大数据价值的探讨深入分析大数据的宝贵之处；洞察大数据发展趋势从大数据隐私这一特殊而重要的视角审视人与数据之间的长期博弈。

第二个层面是技术，技术是大数据价值体现的手段和前进的基础。它介绍了大数据从云计算、分布式处理技术、存储技术和感知技术的发展，到收集、处理、存储到结果形成的全过程。

第三个层面是实践，实践是大数据最终价值的体现。这里从互联网大数据、政府大数据、企业大数据、个人大数据四个方面描绘了大数据展现出的美好景象和即将实现的蓝图。

2 .结构化数据结构化数据，简单说就是数据库。也称为行数据，是由二维表结构逻辑表示和实现的数据，严格遵循数据格式和长度规范，主要由关系数据库存储和管理。结构化数据标记是一种更好地将网站呈现在搜索结果中的方法，搜索引擎支持标准的结构化数据标记。

结构化数据可以从唯一的键值中获取适当的信息，RDBMS data等数据格式是固定的。

结构化最普遍的是具有模式的数据，结构化是模式。大多数技术APP应用都是基于结构化数据的。

3 .半结构化数据半结构化数据与普通纯文本相比具有一定的结构性，但与具有严格理论模型的关系数据库数据相比更为灵活。这是适合数据库集成的数据模型。这意味着您应该编写包含不同模式的相似数据的两个或多个数据库中的数据。这是用于在Web上共享信息的标记服务的基础模型。对半结构化数据模型感兴趣的动机主要是其灵活性。特别是半结构化数据是“无模式”。更准确地说，那个数据是自我描述性的。它包含有关模式的信息，并且可以随时在单个数据库中任意更改模式。

虽然这种灵活性可能使查询处理更加困难，但它给用户带来了巨大的好处。例如，在半结构化模型中维护电影数据库，并按照用户希望的那样“你喜欢看这部电影吗？ )来添加。中选择另一种天花板类型。这些属性不需要所有电影都有值。或者，多部电影也不必有价值。同样，也可以在不改变模式的情况下添加“homage to”这样的联系，或者展示多部电影之间的联系。

我们必须了解数据的详细情况，所以不能简单地将数据汇总成一个文件按照非结构化数据进行处理，即使结构发生了很大的变化也不能简单地制作表格来应对他。

半结构化数据可以通过灵活的键值调整获取信息。另外，数据的格式不像json那样固定。存储在同一键值下的信息可以是数值类型、文本类型、词典或列表。

半结构化数据很有意思，首先该数据被结构化了，但不方便图案化，记述也有可能不标准，由于记述具有伸缩性，总之也有可能无法图案化。 XML和json表示的数据具有半模式的特征。

半结构化数据中的结构模式附着或融合在数据本身上，数据本身描述其相应的结构模式，具有以下特征：

)1)数据结构的自描述性。结构与数据融合，在研究和应用中无需区分“元数据”和“一般数据”。

)2)数据结构描述的复杂性。结构很难嵌入现有的各种描述框架中，在实际应用中很难有清晰的理解和把握。

)3)数据结构描述的动态性。数据的变化通常导致结构模式的变化，总体上具有动态的结构模式。

常规数据模型(如E-R模型、关系模型和对象模型)与上述特征相反，因此是结构化数据模型。对于结构化数据，半结构化数据的结构更为复杂和不确定，因此具有更大的灵活性，能够满足更广泛的APP应用需求。其实用半图案化的视点看数据是非常合理的。模式没有限制，数据可以自由流入系统，自由更新。这便于客观地解释事情。使用时模式发挥作用，使用者想获取数据时，需要构建必要的模式来获取数据。为了给每个使用者构建不同的模式，数据被最大化利用。这是最自然的数据使用方法。

4 .非结构化数据非结构化数据对于结构化数据，不适合用数据库二维表表示，包括所有格式的办公文档、XML、HTML、各种报表、图像和点击量、视频信息等。支持非结构化数据的数据库采用多值字段、字段、变长字段机制进行数据项的创建和管理，广泛应用于全文检索和各种多媒体信息处理领域。 IDC的调查报告显示，80%的企业数据是非结构化数据，这些数据每年以指数级增长60%。

非结构化数据无法从键值中获取适当的信息。非结构化一般是指不可结构化的数据，如图像、文件、超媒体等典型信息，在互联网信息内容形式中占有很大比例。随着“互联网”战略的实施，将产生越来越多的非结构化数据，预计非结构化数据将占所有各类数据的70-80%以上。结构化数据分析挖掘技术发展了多年

展，已经形成了相对比较成熟的技术体系。也正是由于非结构化数据中没有限定结构形式，表示灵活，蕴含了丰富的信息。因此，综合看来，在大数据分析挖掘中，掌握非结构化数据处理技术是至关重要的。
其挑战性问题在于语言表达的灵活性和多样性，具体的非结构化数据处理技术包括：
（1）Web页面信息内容提取；
（2）结构化处理（含文文本的词汇切分、词性分析、歧义处理等）；
（3）语义处理（含实体提取、词汇相关度、句子相关度、篇章相关度、句法分析等）
（4）文本建模（含向量空间模型、主题模型等）
（5）隐私保护（含社交网络的连接型数据处理、位置轨迹型数据处理等）
这些技术所涉及的技术较广，在情感分类、客户语音挖掘、法律文书分析等等许多领域都有广泛的应用价值。

二、大数据的特征 1.大数据的4V特点

“大数据”概念最早由现代的溪流和pgddxq在编写《大数据时代》中提出，指不用随机分析法（抽样调查）的捷径，而是采用所有数据进行分析处理。
大数据具有4V特点，即Volume(大量)、Velocity(高速)、Variety(多样)和Veracity(精确)，其核心在于对这些含有意义的数据进行专业化处理。

（1）数据体量巨大(volumes)
指代大型数据集，一般在10TB规模左右，但在实际应用中，很多企业用户把多个数据集放在一起，已经形成了PB级的数据量;百度资料表明，其新首页导航每天需要提供的数据超过1.5PB(1PB=1024TB)，这些数据如果打印出来将超过5千亿张A4纸。有资料证实，到目前为止，人类生产的所有印刷材料的数据量仅为200PB。
例如，IDC 最近的报告预测称，到2020 年，全球数据量将扩大50 倍。目前，大数据的规模尚是一个不断变化的指标，单一数据集的规模范围从几十TB到数PB不等。简而言之，存储1 PB数据将需要两万台配备50GB硬盘的个人电脑。此外，各种意想不到的来源都能产生数据。
在2003年，人类第一次破译人体基因密码时，用了10年才完成了30亿对碱基对的排序；而在10年之后，世界范围内的基因仪15分钟就可以完成同样的工作量。伴随着各种随身设备、物联网和云计算、云存储等技术的发展，人和物的所有轨迹都可以被记录，数据因此被大量生产出来。
移动互联网的核心网络节点是人，不再是网页，人人都成为数据制造者，短信、微博、照片、录像都是其数据产品；数据来自无数自动化传感器、自动记录设施、生产监测、环境监测、交通监测、安防监测等；来自自动流程记录，刷卡机、收款机、电子不停车收费系统，互联网点击、电话拨号等设施以及各种办事流程登记等。

（2）数据类别大和类型多样(variety)
数据来自多种数据源，数据种类和格式日渐丰富，已冲破了以前所限定的结构化。数据范畴，囊括了半结构化和非结构化数据。现在的数据类型不仅是文本形式，更多的是图片、视频、音频、地理位置信息等多类型的数据，个性化数据占绝对多数。
数据多样性的增加主要是由于新型多结构数据，以及包括网络日志、社交媒体、互联网搜索、手机通话记录及传感器网络等数据类型造成。
大数据具有多层结构，这意味着大数据会呈现出多变的形式和类型。相较传统的业务数据，大数据存在不规则和模糊不清的特性，造成很难甚至无法使用传统的应用软件进行分析。传统业务数据随时间演变已拥有标准的格式，能够被标准的商务智能软件识别。目前，企业面临的挑战是处理并从各种形式呈现的复杂数据中挖掘价值。
多样化的数据来源正是大数据的威力所在，例如交通状况与其他领域的数据都存在较强的关联性。大数据不仅是处理巨量数据的利器，更为处理不同来源、不同格式的多元化数据提供了可能。

（3）处理速度快(Velocity)
高速描述的是数据被创建和移动的速度。在高速网络时代，通过基于实现软件性能优化的高速电脑处理器和服务器，创建实时数据流已成为流行趋势。企业不仅需要了解如何快速创建数据，还必须知道如何快速处理、分析并返回给用户，以满足他们的实时需求。
在数据量非常庞大的情况下，也能够做到数据的实时处理。数据处理遵循“1秒定律”，可从各种类型的数据中快速获得高价值的信息。
在未来，越来越多的数据挖掘趋于前端化，即提前感知预测并直接提供服务给所需要的对象，这也需要大数据具有迅速的处理速度。

（4）价值真实性(Value)高和密度低
数据真实性高，随着社交数据、企业内容、交易与应用数据等新数据源的兴趣，传统数据源的局限被打破，企业愈发需要有效的信息之力以确保其真实性及安全性。以视频为例，一小时的视频，在不间断的监控过程中，可能有用的数据仅仅只有一两秒。
数据的真实性和质量是获得真知和思路最重要的因素，是制定成功决策最坚实的基础。

##2.大数据的3S或3I特点
3S指的是：大小（Size）、速度（Speed）和结构（Structure）。
3I指的是：
（1）、定义不明确的（Ill-de.ned）：多个主流的大数据定义都强调了数据规模需要超过传统方法处理数据的规模，而随着技术的进步，数据分析的效率不断提高，符合大数据定义的数据规模也会相应不断变大，因而并没有一个明确的标准。
（2）、令人生畏的（Intimidating）：从管理大数据到使用正确的工具获取它的价值，利用大数据的过程中充满了各种挑战。
（3）、即时的（Immediate）：数据的价值会随着时间快速衰减，因此为了保证大数据的可控性，需要缩短数据搜集到获得数据洞察之间的时间，使得大数据成为真正的即时大数据，这意味着能尽快地分析数据对获得竞争优势至关重要。

我的博客园
https://www.cnblogs.com/wenqingqing/p/9168129.html