数据库提取需要哪些知识,数据库

NoSQL NoSQL是非关系型，分布式，无需遵循ACID原则，不提供SQL功能上的数据库。

特点是易扩展，数据种类繁多；支持高性能、高并发读写；灵活的数据模型，随时存储多种格式的数据；高可用性。

可以存储大量数据、高效同时读写、管理和访问大量数据。

关系数据库与非关系数据库的区别：

1 .存储方式：按http://www.Sina.com/http://www.Sina.com /格式存储，数据按列和行方式存储，读取和查询非常方便。但是，关系型数据库不适合表存储，通常以表方式存储。这意味着大量数据将集中存储，如键值对、图表结构等。

2 .存储结构：相关数据库采用非关系型数据库法存储数据。每个表都需要预先定义；非关系数据库采用以数据集的，可以轻松应对数据类型和结构的更改。

3 .存储规范：关系数据库以照结构化的方的格式存储数据，避免重复数据，充分利用存储空间；非关系数据库集中存储在用动态结构上，并按数据库单独存储，便于读写数据。

4 .读写性能：相关系数照最小关系表无关数据为用平面数据集的方式

CAP原则：一致性、可用性、分区容错

NoSQL理论的基础是由CAP原则、BASE理论和最终一致性奠定的。

MongoDB MongoDB是据库强调数据的一致性，为此降低了数据的读写性能

特点：易用性、灵活的文档模型、快速迭代和加快开发过程；性能高，动态填充文档，并用大部分内存作为缓存；高可用性；它支持多种存储引擎，可扩展、采用水平扩展，并且可以通过分片将数据分布到群集计算机。

33558www.Sina.com/MongoDB实例组包含同一数据集的群集由一个主服务器(主服务器)和多个复制副本服务器)组成。通过好的应对海量数据，以数据集的形式存储数据，更加便于读写。上的功能，复制集可以摆脱数据库使用过程中出现的环境故障，是部署所有生产环境的基础。

分片技术是提高数据存储和数据读/写吞吐量的常用方法。主要是分割数据并分别存储在不同机器上的过程。通常，分片技术可以减少单个计算机的压力，并处理更大的数据负载。

拼贴与复制集的主要区别在于，拼贴是每个节点存储数据的不同片段，而复制集是每个节点存储数据的同一副本。

密钥和值存储数据库Redis **Redis是一个高性能密钥和值对数据库，主要将数据存储为密钥-值对。 no这是SQL中读写速度最快的数据库。

Remote Dictionary Server (简称Redis )或远程字典服务器是基于开源、高性能、密钥-值对的缓存和存储数据库，可以在各种情况下使用Reids数据库基于ANSI C语言开发，提供多种语言的API。

特点：

1 .读写速度快，基于内存读写，将整个数据库的数据加载到内存中进行操作和处理，定期异步操作将数据写入磁盘进行存储，保证数据库的容错性，计算机断电时

2 .支持多种数据结构，

3 .功能丰富，

4 .应用广泛。

Redis的应用场景：

1 .现金。缓存操作是将数据存储在内存而不是硬盘中，访问内存比访问硬盘快得多。

2 .建立队列系统的排名：也是基于分布式文件存储的开源数据库系统。是由C++语言编写的非关系数据库，是为快速开发互联网Web应用而设计的数据库系统。

3 .过期数据自动处理：计数器APP采用单线程，并且是线程安全的。常用的APP场景包括网站访问统计、广告点击量统计等。

基于列的数据库HBase HBase是一种NoSQL数据库，以列为基础存储。常见的基于列的数据库有HBase、Hyper Table等。由于HBase数据库基于Hadoop生态系统，因此使用HBase群集可以在多个廉价的PC服务器上实现结构化数据的分布式数据存储，并处理大量数据。

副本集（replica set）是

HBase分布式数据库具有以下特点：

大容量存储；面向列；多个版本；稀疏性；容易扩展；高可靠性。

HBase分布式数据库中的常用场景包括对象存储、时序数据、推荐图像、时空数据、Cube分析、

消息/订单存储以及社交Feeds流等场景。

HBase构建在Hadoop分布式文件系统（HDFS）上，HDFS为HBase提供了高可靠的底层存储支持，Hadoop分布式计算框架（MapReduce）为HBase提供了高性能的计算能力，分布式协作框架（Zookeeper）为HBase提供了稳定服务容错机制。

图形存储数据库Neo4j

**图形化存储数据库Neo4j主要是应用图形理论存储实体之间的关系信息的NoSQL非关系数据库。Neo4j是一个高性能、高可靠性、可扩展的、支持ACID事务的图数据库。**可以被看作是一个高性能的图引擎，此数据库基于Java语言开发的，且是开源的，其中实体被视为图形的“结点”，关系被视为图形的“边”，“边”按照关系将“结点”进行连接。

特点：读写速度快，高效；设计灵活，图结构具有自然伸缩特性；迭代敏捷；高可用性；易用性；资源丰富以及应用广泛。

常见的应用场景：社区网络、推荐引擎、交通运输、物流管理、主数据管理、访问控制以及欺诈检测等。

Neo4j的数据模型是遵循属性图模型来存储和管理数据的。

Spark计算框架

Spark计算框架在处理数据时，所有的中间数据都保存在内存中，正是由于Spark充分利用内存对数据进行计算，从而减少磁盘读写操作，增大了框架计算效率，同时Spark还兼容HDFS，Hive，可以很好的与Hadoop系统融合，从而弥补MapReduce高延迟的性能缺点。

Spark是一个更加快速的、高效的大数据计算平台。Spark具有速度快、易用性、通用性、兼容性好等显著特点。***Spark是一个可应用于大规模数据处理的快速、通用引擎，提供内存计算和基于DAG（有向无环图）的任务调度执行机制，***减少了迭代计算时的I/O开销，也可以支持SQL即席查询、流计算、机器学习等。

Spark的部署模式有两种：Local（本地单机模式）和集群模式。在Local模式下，常用于本地开发程序与测试，而集群模式又分为Standalone模式（集群单机模式）、Yarn模式和Mesos模式。