大数据专业知识,生物学业水平测试知识点

1 .大数据大数据是大数据的集合，不能用传统的计算技术来处理。测试这些数据集需要使用各种工具、技术和框架。大数据包括数据的创建、存储、检索和分析。它是一种巨大、高增长率、多样化的信息资产，需要新的处理模式，才能拥有更好的数量、多样性和速度方法，具有更强的决策力、洞察力和流程优化能力。

2 .大数据测试类型的测试大数据APP应用往往是验证数据处理，而不是测试软件产品的各个功能。涉及大数据测试时，性能和功能测试很重要。有三种类型的处理：

批量

实时

在交互式测试APP应用之前，必须检查数据的质量，并将其视为数据库测试的一部分。必须检查各种字段，包括一致性、准确性、重复性、一致性、有效性和数据完整性。

3 .测试步骤

3.1步骤1、数据预处理验证进行大数据测试时，首先在hadoop前验证数据的正确性等。我们的数据源可能是关系数据库、日志系统、社交网络等。所有的我们都要保证数据能正确加载到系统中。必须确保加载的数据和源数据一致，并且数据将正确提取和加载到hdfs中

3.2步骤2、Map Reduce验证在进行大数据测试时，第二关键步骤是Map Reduce验证。在此阶段，主要验证每个处理节点的业务逻辑是否正确，多次运行后验证：

映射就绪进程运行正常

数据聚合、分离规则已经实现

已成功生成数据密钥-值关系

验证映射读取后数据的正确性等特性

3.3步骤三、结果验证本阶段主要是对大数据工具/框架处理后生成的最终数据成果进行验证。转换检查规则将正确应用，以确保数据完整性检查和成功的数据加载到目标系统

4 .性能测试性能测试是评估大数据分析系统的最关键维度，大数据系统的性能主要包括吞吐量、任务完成时间、内存使用率等多个指标，能够反应大数据分析平台的处理能力、资源利用能力等性能可以通过hadoop性能监测器监测运行状态的性能指标和瓶颈问题，性能测试采用自动化方式进行，测试不同负载情况下的系统性能。

5 .容错测试可以从部分故障中自动恢复，验证的影响不影响整体性能。尤其是发生故障时，大数据分析系统在进行恢复的同时应该以可接受的方式继续操作，出现故障时应该在一定程度上继续操作，需要根据应用场景设计解决方案和具体部署，并进行手动测试。

6 .可用性测试高可用性已是大数据分析不可缺少的特性之一，从而保证数据应用业务的连续性。大数据的高可用性对许多APP应用非常重要，需要严格测试和验证，以手动测试为主。

7 .可扩展性测试的灵活扩展能力对大数据时代的文件系统尤为重要。文件系统的可扩展性测试主要包括测试系统的灵活扩展能力(扩展/缩小)和扩展系统带来的性能影响，验证是否具有线性扩展能力，以手动测试为主。

8 .稳定性测试大数据分析系统通常不间断长期运行。稳定性的重要性不言而喻，稳定性测试主要验证系统在长时间(7/30/180/365*24 )许可下，系统能否正常运行，功能是否正常。稳定性测试通常采用自动化方式进行，LTP、10ZONE、POSTMARK、FIO等工具对

9 .部署方式测试大数据具有scale-out的特点，可以构建大规模高性能的文件系统集群。部署文件系统的方式因APP应用程序和解决方案而异。部署方法测试应在多种情况下测试系统部署方法，包括自动安装配置、群集规模、硬件配置(服务器、存储、网络)和自动负载平衡。这部分测试无法进行自动化测试，必须根据APP应用方案设计并手动测试解决方案和具体部署。

10 .数据完整性测试此处的数据完整性意味着文件系统中的数据与外部写入前的数据一致，即写入数据和读取数据始终一致。数据完整性表示文件系统可以保证数据的完整性，不会导致数据丢失或数据错误。这是文件系统最基本的功能，测试通过使用diff、md5sum编写脚本来自动化测试，而LTP提供了测试数据完整性的工具。

11 .压力测试大数据分析系统承载能力存在上限，系统超载可能存在系统性能下降、功能异常、拒绝访问等问题。压力测试验证系统是否依然正常运行、功能是否正常、系统资源消耗情况，包括数据多客户端、高OPS压力、高IOPS/吞吐量压力等，为大数据运用提供依据

12 .大数据技术板块分割数据收集： flume kafka logstash filebeat …

数据存储： mysql redis hbase hdfs …

mysql不属于大数据的范畴，但你在工作中离不开它，所以在这里也列出了

数据查询： hiveimpalaelasticsearchkylin…

数据计算

实时计算：storm sparkstreaming flink …

脱机：hadoop spark …计算…

其他框架： zookeeper …

13 .大数据学习步骤1 )基于linux

础和javase基础【包含mysql】

这些是基本功，刚开始也不可能学的很精通，最起码要对linux中的一些基本的命令混个脸熟，后面学习各种框架的时候都会用到，用多了就熟悉了。javase的话建议主要看面向对象，集合，io，多线程，以及jdbc操作即可。

2）zookeeper

zookeeper是很多大数据框架的基础，中文名称是动物园的意思，因为目前的大数据框架的图标很多都是动物的形状，所以zookeeper其实就是可以管理很多大数据框架的。针对这个框架，主要掌握如何搭建单节点和集群，以及掌握如何在zkcli客户端下对zookeeper的节点进行增删改查操作即可。

3）hadoop

目前企业中一般都是用hadoop2.x的版本了，所以就没有必要再去学hadoop1.x版本了，hadoop2.x主要包含三大块hdfs 前期，主要学习hdfs的一些命令即可，上传，下载，删除，移动，查看等命令…mapreduce 这个需要重点学习下，要理解mr的原理以及代码实现，虽然现在工作中真正写mr的代码次数很少了，但是原理还是要理解的。

yarn 前期了解即可，只需要知道yarn是一个资源调度平台，主要负责给任务分配资源即可，yarn不仅可以给mapreduce任务调度资源，还可以为 spark任务调度资源…yarn是一个公共的资源调度平台，所有满足条件的框架都可以使用yarn来进行资源调度。

4）hive

hive是一个数据仓库，所有的数据都是存储在hdfs上的，具体【数据仓库和数据库】的区别大家可以去网上搜索一下，有很多介绍。其实如果对 mysql的使用比较熟悉的话，使用hive也就简单很多了，使用hive主要是写hql，hql是hive的sql语言，非常类似于mysql数据库的 sql，后续学习hive的时候主要理解一些hive的语法特性即可。其实hive在执行hql，底层在执行的时候还是执行的mapredce程序。注意：其实hive本身是很强大的，数据仓库的设计在工作中也是很重要的，但是前期学习的时候，主要先学会如何使用就好了。后期可以好好研究一下hive。

5）hbase

hbase是一个nosql 数据库，是一个key-value类型的数据库，底层的数据存储在hdfs上。在学习hbase的时候主要掌握 row-key的设计，以及列簇的设计。要注意一个特点就是，hbase基于rowkey查询效率很快，可以达到秒级查询，但是基于列簇中的列进行查询，特别是组合查询的时候，如果数据量很大的话，查询性能会很差。

6）redis

redis也是一个nosql（非关系型数据库）数据库和key-value类型的数据库，但是这个数据库是纯基于内存的，也就是redis数据库中的数据都是存储在内存中的，所以它的一个特点就是适用于快速读写的应用场景，读写可以达到10W次/秒，但是不适合存储海量数据，毕竟机器的内存是有限的，当然，redis也支持集群，也可以存储大量数据。在学习redis的时候主要掌握string，list，set，sortedset，hashmap这几种数据类型的区别以及使用，还有 pipeline管道，这个在批量入库数据的时候是非常有用的，以及transaction事务功能。

7）flume

flume是一个日志采集工具，这个还是比较常用的，最常见的就是采集应用产生的日志文件中的数据。一般有两个流程，一个是flume采集数据存储到kafka中，为了后面使用storm或者sparkstreaming进行实时处理。另一个流程是flume采集的数据落盘到hdfs上，为了后期使用hadoop或者spark进行离线处理。在学习flume的时候其实主要就是学会看flume官网的文档，学习各种组建的配置参数，因为使用 flume就是写各种的配置。

8）kafka

kafka 是一个消息队列，在工作中常用于实时处理的场景中，作为一个中间缓冲层，例如，flume->kafka->storm/sparkstreaming。学习kafka主要掌握topic，partition，replicate等的概念和原理。

9）storm

storm是一个实时计算框架，和hadoop的区别就是，hadoop是对离线的海量数据进行处理，而storm是对实时新增的每一条数据进行处理，是一条一条的处理，可以保证数据处理的时效性。学习storm主要学习topology的编写，storm并行度的调整，以及storm如何整合 kafka实时消费数据。

10）spark

spark 现在发展的也很不错，也发展成了一个生态圈，spark里面包含很多技术，spark core，spark steaming，spark mlib，spark graphx。spark生态圈里面包含的有离线处理spark core，和实时处理spark streaming，在这里需要注意一下，storm和spark streaming ，两个都是实时处理框架，但是主要区别是：storm是真正的一条一条的处理，而spark streaming 是一批一批的处理。

spark中包含很多框架，在刚开始学习的时候主要学习spark core和spark streaming即可。这个一般搞大数据的都会用到。spark mlib和spark graphx 可以等后期工作需要或者有时间了在研究即可。

11）elasticsearch

elasticsearch是一个适合海量数据实时查询的全文搜索引擎，支持分布式集群，其实底层是基于lucene的。在查询的时候支持快速模糊查询，求count，distinct，sum，avg等操作，但是不支持join操作。elasticsearch目前也有一个生态圈，elk(elasticsearch logstash kibana)是一个典型的日志收集，存储，快速查询出图表的一整套解决方案。在学习elasticsearch的时候，前期主要学习如何使用es进行增删改查，es中的index，type，document的概念，以及es中的mapping的设计。

下面是配套资料，对于做【软件测试】的朋友来说应该是最全面最完整的备战仓库，这个仓库也陪伴我走过了最艰难的路程，希望也能帮助到你！

最后： 可以在公众号：伤心的辣条！免费领取一份216页软件测试工程师面试宝典文档资料。以及相对应的视频学习教程免费分享！，其中包括了有基础知识、Linux必备、Shell、互联网程序原理、Mysql数据库、抓包工具专题、接口测试工具、测试进阶-Python编程、Web自动化测试、APP自动化测试、接口自动化测试、测试高级持续集成、测试架构开发测试框架、性能测试、安全测试等。

学习不要孤军奋战，最好是能抱团取暖，相互成就一起成长，群众效应的效果是非常强大的，大家一起学习，一起打卡，会更有学习动力，也更能坚持下去。你可以加入我们的测试技术交流扣扣群：914172719（里面有各种软件测试资源和技术讨论）

喜欢软件测试的小伙伴们，如果我的博客对你有帮助、如果你喜欢我的博客内容，请 “点赞” “评论” “收藏” 一键三连哦！

好文推荐

转行面试，跳槽面试，软件测试人员都必须知道的这几种面试技巧！

面试经：一线城市搬砖！又面软件测试岗，5000就知足了…

面试官：工作三年，还来面初级测试？恐怕你的软件测试工程师的头衔要加双引号…

什么样的人适合从事软件测试工作？

那个准点下班的人，比我先升职了…

测试岗反复跳槽，跳着跳着就跳没了…