Spark2 文件处理和jar包执行

时间:2022-04-28 01:21:33

上传数据文件

mkdir -p data/ml/

hadoop fs -mkdir -p /datafile/wangxiao/

hadoop fs -ls /

hadoop fs -put /home/wangxiao/data/ml/Affairs.txt /datafile/wangxiao/

hadoop fs -ls -R /datafile

hdfs://ns1/datafile/wangxiao/Affairs.txt

执行jar包

  mkdir -p jar/

  $SPARK_HOME/bin/spark-submit \

  --class "ML2" \

  --master local[2] \

  /home/wangxiao/jar/test.jar

下载数据文件到本地

hadoop fs -get  /datafile/wangxiao/Affairs.txt  /home/wangxiao/data/ml/

删除HDFS上的文件

hadoop fs -rm -r -f /datafile/wangxiao/data*

hadoop fs -cat /user/wangxiao/bfeed.txt  输出文本内容

hadoop fs –mkdir //user/wangxiao/dir/ 在指定位置创建目录。
   
hadoop fs -du -h /user/wangxiao/ 统计目录下文件大小

hadoop fs -count -q /user/wangxiao/ 统计文件(夹)数量

命名空间的quota(限制文件数) 剩余的命名空间quota 物理空间的quota (限制空间占用大小) 剩余的物理空间 目录数统计 文件数统计 目录逻辑空间总大小 路径

逻辑空间,即分布式文件系统上真正的文件大小
物理空间,即存在分布式文件系统上该文件实际占用的空间

分布式文件系统为了保证文件的可靠性,往往会保存多个备份(一般是3份),
只要备份数不为1的情况下,一般物理空间会是逻辑空间的几倍。

HDFS物理空间=逻辑空间*block备份数