文件名称:大数据期末知识点总结.pdf
文件大小:192KB
文件格式:PDF
更新时间:2022-12-24 15:14:54
文档资料
⼤数据期末知识点总结 ⼤数据特点: ⼤数据特点: 五个主要技术特点:5V Volume(⼤体量):即可从数百TB到数⼗数百PB、甚⾄EB规模。 Variety(多样性):即⼤数据包括各种格式和形态的数据。 Velocity(时效性):即很多⼤数据需要在⼀定的时间限度下得到及时处理。 Veracity(准确性):即处理的结果要保证⼀定的准确性。 Value(⼤价值):即⼤数据包含很多深度的价值,⼤数据分析挖掘和利⽤带来巨⼤的商业价值。 ⼤数据概念: ⼤数据概念: ⼤数据是指数据规模⼤,尤其指因为数据形式多样、⾮结构化特征明显,导致数据存储、处理和挖掘异常困难的那类数据集。 ⼤数据性质: ⼤数据性质: ⾮结构性,不完备性,时效性,安全性,可靠性 ⼤数据技术概述: ⼤数据技术概述: ⼤数据及时是指从数据采集、清洗、集成、分析与解释,进⽽从各种各样的巨量数据中快速获得有价值信息的全部技术。 ⼤数据趋势: ⼤数据趋势: ⼤数据细分市场、⼤数据推动企业发展、⼤数据分析的新⽅法出现、⼤数据与云计算⾼度融合、⼤数据⼀体化设备陆续出现、⼤数据安全⽇ 益受到重视。 ⼤数据应⽤实例: ⼤数据应⽤实例: ⽹络⼤数据、⾦融⼤数据、企业⼤数据、*管理⼤数据、安全⼤数据。 在医疗⾏业中医疗保健内容的预测分析、早产婴⼉的预测分析、精确确诊的预测分析 在能源⾏业中:智能电⽹、风⼒系统依靠⼤数据技术对⽓象数据进⾏分析 在通信⾏业中:通过分析客户的资料分析客户需求 交通⾏业中:车辆的运输管理,解决道路拥堵 零售业中:收集社交信息,分析消费者⽔平 科学研究四个范式: 科学研究四个范式: 第⼀范式: 第⼀范式: 概念:科学实验主要描述⾃然现象,以观察和实验为依据的研究,也可称为经验范式。 内容:实验是⼈们为实验预定⽬的,在⼈⼯控制条件下,通过⼲预和控制科研对象⽽观察和探索科研对象的规律和机制的⼀种研究⽅法, 特征:纯化观察对象条件、强化观察对象、可重复性 第⼆范式: 第⼆范式: 概念:以建模和归纳为基础的理论学科和分析范式,⼜称为理论范式。 内容:是对某种经验现象或事实的科学解说和系统解释,他是由⼀系列特定的概念、原理、命题以及对他们的严密论证组成的知识体系。 特征:抽象性、逻辑性、系统性 第三范式: 第三范式: 概念:是以模拟复杂现象为基础的计算科学范式⼜称模拟范式 内容:模拟有三种⽅法 数学模型⽅法 模拟程序⽅法 物理模型⽅法 特征:⾼度抽象 ⾼度精确 具有普遍意义 第四范式: 第四范式: 概念:以考察为基础,联合理论、实验、和模拟⼀体的数据密集计算的范式 内容:数据被捕获或者由模拟器⽣成,利⽤软件处理,信息和知识存储在计算机中国,科学家使⽤数据管理和统计学⽅法分析数据 特征:处理对象是数据,是围绕数据展开的计算;计算的含义是从数据获取到管理再到分析、理解的整个过程;其⽬的是推动技术前沿发 展,⽬标是依赖传统的单⼀数据源和准静态数据库⽆法实现的应⽤。 可伸缩性: 可伸缩性: ⼜称可扩展性,是指通过扩展系统规模来提⾼性能并处理更⼤数量的⽤户和通过扩展系统规模提⾼系统的容错能⼒等 横⾏扩展: 横⾏扩展: 向逻辑单元之外的扩展,增加更多逻辑单元的资源,并使他们像⼀个单元⼀样⼯作。 CAP定理: 定理: ⼀个分布式系统不可能同时满⾜⼀致性、可⽤性和分区容错性三个系统需求,最多只能同时满⾜俩个系统需求。在考虑满⾜系统需求时,要 根据实际需要来选择关注点,进⽽采⽤相应的策略。 函数式编程优点: 函数式编程优点: 逻辑可证、模块化、组件化、易于调试、易于测试、更⾼的⽣产率 函数式编程的特征: 函数式编程的特征: 没有副作⽤、⽆状态编程、只有输⼊值与输出值 Mapreduce是⾕歌针对⼤规模群组中的海量数据处理⽽提出的分布式编程模型 Hadoop 是⼀个⽤于收集、共享和分析来⾃⽹络的⼤量结构化、半结构化和⾮结构化数据的平台。 Hadoop优点:⽅便、健壮、横向可扩展、简单。 Hadoop与sql数据库⽐较:横向扩展代替纵向扩展、键值对代替关系表、函数式编程代替声明式查询、离线批量处理代替在线处理 流式数据的特征:实时性,易失性,突发性,⽆序性,⽆限性,可靠性 流式计算性能指标:计算⽅式,常驻空间,时效性,有序性,数据量,数据速率,是否可重现,移动对象,数据精确度 Storm:任务拓扑=有向⽆环图(Spout、Bolt)Spout读取数据(元组)——》Blot。节点:Nimbus Supervisor。特征:编程模型简单 (Spout,Blot),多语⾔⽀持,作业级容错,⽔平可拓展,快速消息计算。Zookeeper:存储信息,1任务拓扑,任务分配,任务执⾏状 态,2从节点状态,⼯作进程状态,⼼跳信息,3集群状态配置信息 Nimbus master资源分配,任务调度,状态监控,故障