一文读懂大数据两大核心技术

　　今天小编给大家先分享一下大数据的两大核心技术，知己知彼才能百战不殆，学习大数据技术也是一样的道理，要先有一个清晰的了解，才能确保自己全身心的投入学习。

　　Hadoop是什么?

　　Hadoop在2006年开始成为雅虎项目，随后晋升为*Apache开源项目。它是一种通用的分布式系统基础架构，具有多个组件：Hadoop分布式文件系统(HDFS)，它将文件以Hadoop本机格式存储并在集群中并行化; YARN，协调应用程序运行时的调度程序; MapReduce，这是实际并行处理数据的算法。Hadoop使用Java编程语言构建，其上的应用程序也可以使用其他语言编写。通过一个Thrift客户端，用户可以编写MapReduce或者Python代码。

　　除了这些基本组件外，Hadoop还包括Sqoop，它将关系数据移入HDFS; Hive，一种类似SQL的接口，允许用户在HDFS上运行查询; Mahout，机器学习。除了将HDFS用于文件存储之外，Hadoop现在还可以配置使用S3 buckets或Azure blob作为输入。

　　它可以通过Apache发行版开源，也可以通过Cloudera(规模和范围最大的Hadoop供应商)，MapR或HortonWorks等厂商提供。

　　Spark是什么?

　　Spark是一个较新的项目，在2012年诞生在加州大学伯克利分校的AMPLab。它也是一个*Apache项目，专注于在集群中并行处理数据，一大区别在于它在内存中运行。

　　类似于Hadoop读取和写入文件到HDFS的概念，Spark使用RDD(弹性分布式数据集)处理RAM中的数据。Spark以独立模式运行，Hadoop集群可用作数据源，也可与Mesos一起运行。在后一种情况下，Mesos主站将取代Spark主站或YARN以进行调度。

　　Spark是围绕Spark Core构建的，Spark Core是驱动调度，优化和RDD抽象的引擎，并将Spark连接到正确的文件系统(HDFS，S3，RDBM或Elasticsearch)。Spark Core上还运行了几个库，包括Spark SQL，允许用户在分布式数据集上运行类似SQL的命令，用于机器学习的MLLib，用于解决图形问题的GraphX以及允许输入连续流式日志数据的Streaming。

　　Spark有几个API。原始界面是用Scala编写的，并且由于大量数据科学家的使用，还添加了Python和R接口。Java是编写Spark作业的另一种选择。

　　Databricks是由Spark创始人Matei Zaharia创立的公司，现在负责 Spark开发并为客户提供Spark分销。

　　Hadoop和spark两个大数据的核心技术的基础讲解在此就顺应结束了，想要提升自己的技术，想要突破自己的技术领域，欢迎撩小编，已经为你准备好了全套的大数据学习资料!

秒客网

一文读懂大数据两大核心技术

相关文章