视频地址:http://pan.baidu.com/s/1dDEgKwD
这个视频理论性太强,不过倒是给了自己唯一的选项就是自己实践,不用像以前那样视频中敲一个字符,我也敲一个字符
讲到的内容:
介绍了三本书
讲师说第一本适合入门者,重实验,但是里面错误不少;第二本重理论,讲的深;第三本是高级人员才能看的,属于源码级别的书,深入解析了HDFS源码,并教你怎么修改以让你的HDFS最大限度的优化到完美对接自己的项目。
无疑,这才是我想搞定的。
接下来讲了怎么安装hadoop
伪分布式
完全分布式
以及各个配置文件的用处
看完了我也实践了一把,不难,和高版本的区别不大,而且少了yarn的配置
伪分布式配置文档:http://pan.baidu.com/s/1eQkY3Ge
完全分布式配置文档:http://pan.baidu.com/s/1hq9qYOG
SSH原理:
这还真是之前没有意识到要了解的
scp命令
-r 参数是迭代复制,把文件夹中的子文件夹和文件都复制
Google的倒排索引表存在哪儿?因为它没用关系数据库。bigtable,算是一种数据结构,和关系数据库的表有区别。
它也是hadoop子项目HBase的前身
hadoop为什么需要SSH免密码?
我自己也不是很清楚。
应该是hadoop节点之间的某种通讯用到了SSH协议,但又不能每次都手动输入密码,所以...
tar zxvf 参数的含义
x : 从 tar 包中把文件提取出来
z : 表示 tar 包是被 gzip 压缩过的,所以解压时需要用 gunzip 解压
v : 显示详细信息
f :指定被处理的文件名
hadoop-env.sh 是hadoop的环境变量文件
fs.default.name
描述集群中NameNode结点的URI(包括协议、主机名称、端口号),集群里面的每一台机器都需要知道NameNode的地址
但是我貌似了解到它另一层意思是声明了用了哪个文件系统,因为hadoop支持不止一种文件系统,比如参数值为hdfs://master:9000,那么指定hadoop使用HDFS文件系统,namenode的地址和端口是...
勇敢怀疑你有任何疑问的地方。