文件名称:大数据测试——精选推荐.pdf
文件大小:191KB
文件格式:PDF
更新时间:2022-12-24 15:18:40
文档资料
⼤数据测试 ⼤数据测试 什么是⼤数据 什么是⼤数据 ⼤数据是指⽆法在⼀定时间范围内⽤传统的计算机技术进⾏处理的海量数据集。 对于⼤数据的测试则需要不同的⼯具、技术、框架来进⾏处理。 ⼤数据的体量⼤、多样化和⾼速处理所涉及的数据⽣成、存储、检索和分析使得⼤数据⼯程师需要掌握极其⾼的技术功底。 需要你学习掌握更多的⼤数据技术、Hadoop、Mapreduce等等技术。 ⼤数据测试策略 ⼤数据测试策略 ⼤数据应⽤程序的测试更多的是去验证其数据处理⽽不是验证其单⼀的功能特⾊。 当然在⼤数据测试时,功能测试和性能测试是同样很关键的。 对于⼤数据测试⼯程师⽽⾔,如何⾼效正确的验证经过⼤数据⼯具/框架成功处理过的⾄少百万兆字节的数据将会是⼀个巨⼤的挑战。 因为⼤数据⾼效的处理测试速度,它要求测软件⼯程师具备⾼⽔平的测试技术才能应对⼤数据测试。 我们来看下⼤数据处理的三个特性: ⼤批量 实时性 可交互 另外,数据质量也同样是⼤数据测试的⼀个重要维度。 因此在进⾏应⽤程序测试之前,必须确保数据质量,并且考虑把数据质量作为数据库测试的⼀部分。涉及数据的各种特性的检验,例如⼀致性、准确性、重复 性、连贯性、有效性及完整性等等。 ⼤数据应⽤测试步骤 ⼤数据应⽤测试步骤 下⾯我们⼀起看看⼤数据应⽤的测试过程是怎么样的。 整体⽽⾔,⼤数据测试⼤体可以分为三⼤步骤: 步骤⼀,数据预处理验证 在进⾏⼤数据测试时,⾸先要预hadoop前验证数据的准确性等等。 1. 我们数据来源可能是关系数据库、⽇志系统、社交⽹络等等,所以我们应该确保数据能正确的加载到系统中 2. 我们要验证加载的数据和源数据是⼀致的 3. 我们要确保正确的提取和加载数据⾄hdfs中 步骤⼆,Map Reduce验证 在进⾏⼤数据测试时,第⼆个关键步骤是"Map Reduce"验证。在本阶段,我们主要验证每⼀个处理节点的业务逻辑是否正确, 并验证在多个运⾏后,确保: 1. Map Reduce过程⼯作正常 2. 数据聚合、分离规则已经实现 3. 数据key-value关系已正确⽣成 4. 验证经过map reduce后数据的准确性等特性 步骤三,结果验证 在本阶段主要验证在经过⼤数据⼯具/框架处理后,⽣成的最终数据的成果。 主要验证: 1. 验证数据转换规则是否正确应⽤ 2. 验证数据的完整性和是否成功持久化到⽬标系统 3. 验证⽆数据损坏 架构测试 架构测试 Hadoop处理海量数据是⾮常的消耗资源的,良好的架构是确保⼤数据项⽬成功的基础。糟糕的涉及会导致性能急剧的下降,进⽽使得系统⽆法满⾜我们的需 要,因此我们需要,或是说⾄少在Hadoop环境下进⾏性能测试、故障恢复测试,以应改进效率和应对可能的最糟糕的情况。 性能测试是⼀个复杂的⼯作,它贯穿整个测试周期,需要关注内存、CPU、⽹络等等指标。 故障恢复测试则是验证数据处理过程中可能出现的故障,为做好意外的恢复做好相应的应对措施。 性能测试 性能测试 ⼤数据性能测试主要包含以下⼏个部分: 数据提取、存储效率 在本阶段,我们主要验证⼤数据应⽤从源数据中提取、加载数据的效率。 ⼀是验证单位时间内数据的提取、加 载效率。 ⼆是验证数据持久化⾄mongodb等库的效率等等 数据处理 在本阶段,我们验证map reduce任务的执⾏效率,重点关注的是数据处理的效率。当然这个过程可能也会涉及到数据的持久化相关指标,例如存储⾄HDFS读 写效率等等,同样也会涉及在内存中处理效率,即我们的处理算法效率等等 ⼦组件性能 ⼤数据处理,⼀般都会需要综合利⽤各种组件来辅助处理,所以我们也是需要关注这些辅助组件的性能 性能测试策略 性能测试策略 ⼤数据应⽤性能测试涉及海量的结构化和⾮结构化的数据,与我们平时所⾯对的业务系统有所不同,所以我们需要针对⼤数据应⽤制定特定的测试策略,以应对 海量的数据。 根据上图性能测试执⾏过程⼀般是这样的: 1. 在性能测试前需要先初始化⼤数据集群环境 2. 梳理和设计⼤数据性能测试场景 3. 准备⼤数据性能测试脚本 4. 执⾏并分析测试结果(如果指标异常,则调优相应的组件并重新测试) 5. 优化配置 性能测试基础准备 性能测试基础准备 在⼤数据性能测试时,需要准备相关的基础⼯作,如下: 数据准备,我们需要在不同的节点准备什么量级数据? ⽇志预估,在测试过程中,可能会⽣成多⼤的⽇志,⽇志的可能增量是什么样的? 并发,在测试时,可能会有多少线程并发读和写? 超时设置,应对设置怎样的连接超时?查询超时?写超时等等? JVM参数,如何设置最优的jvm参数,heap size、GC机制等等 Map Reduce,我们应该选择什么样的sort、merge等算法? 消息队列,消息队列长度会怎么样?等等 必备的测试环境 必备的测试环境 ⼤数据测试不同