大数据学习笔记之大数据概述

时间:2021-11-18 21:58:34

一、大数据与机器学习的关系

大数据技术是机器学习、深度学习和人工智能的基础,现有的机器学习和人工智能的发展都离不开大数据。

 

大数据学习笔记之大数据概述

 

二、大数据生态圈

目前大数据主要有两大生态圈:
》Hadoop生态圈
》Spark生态圈

三、大数据产生的背景

 由于信息时代的到来,每天都产生了大量的数据,想要靠人工去分析和挖掘这些数据中存在的有价值的信息变得不现实了,因此,产生了大数据技术。

四、大数据的4V特征

数据体量巨大(Volume) :截至目前,人类生产的所有印刷材料的数据量是200PB(1PB=210TB),而历史上全人类说过的所有的话的数据量大约是5EB(1EB=210PB)。当前,典型个人计算机硬盘的容量为TB量级,而一些大企业的数据量已经接近EB量级。
数据类型繁多(Variety): 这种类型的多样性也让数据被分为结构化数据和非结构化数据。相对于以往便于存储的以文本为主的结构化数据,非结构化数据越来越多,包括网络日志、音频、视频、图片、地理位置信息等,这些多类型的数据对数据的处理能力提出了更高要求。
价值密度低(Value): 价值密度的高低与数据总量的大小成反比。以视频为例,一部1小时的视频,在连续不间断的监控中,有用数据可能仅有一二秒。如何通过强大的机器算法更迅速地完成数据的价值“提纯”成为目前大数据背景下亟待解决的难题。
处理速度快(Velocity): 这是大数据区分于传统数据挖掘的最显著特征。根据IDC的“数字宇宙”的报告,预计到2020年,全球数据使用量将达到35.2ZB。在如此海量的数据面前,处理数据的效率就是企业的生命。

大数据学习笔记之大数据概述

大数据技术的目的是在海量的多样化的快速流转的数据海洋中发现这些数据的价值和规律。

五、大数据涉及到的技术

(1)数据采集

(2)数据存储

(3)数据处理/分析/挖掘

(4)可视化

六、大数据在技术架构上带来的挑战

1. 对现有数据库管理技术的挑战
2. 经典数据库没有考虑数据的多类型
3. 实时性技术挑战
4. 网络架构、数据中心、运维的挑战

其他挑战

1.数据隐私
2.数据源复杂多样

七、如何学好大数据

  • 官网、官网、官网
  • 英文、英文、英文
  • 项目实践,对知识点进行巩固和融会贯通
  • 社区活动:Meetup、开源社区大会、线下沙龙等
  • 切记:多动手、多练习,贵在坚持