利用Pycharm本地调试spark-streaming（包含kafka和zookeeper等操作）

环境准备就不说了！

第一步：打开Pycharm，在File->Setting->Project Structure中点击Add Content Root 添加本地python调用java和spark的组件（因为python和spark通讯是通过调用Jvm的相关组件实现的），包含两个压缩包可以在spark的安装包里面找到

第二步：在项目文件内添加本地配置

                os.environ['SPARK_HOME'] = r'C:\Users\fengxu\Desktop\bigdata-software\spark-1.6.0-bin-hadoop2.6'
                os.environ['JAVA_HOME'] = r'C:\software\jdk1.8'
                sys.path.append(r"C:\Users\fengxu\Desktop\bigdata-software\spark-1.6.0-bin-hadoop2.6\python")

        第三步：也是最重要的一步需要在本地的spark安装包内找到spark-defaults.conf的配置文件在末尾添加一行
                  spark.jars.packages   org.apache.spark:spark-streaming-kafka-0-8_2.10:2.0.1
                这是本地操作kafka和一些组件的必备jar包。配置完毕以后就可以在maven仓库下载相关jar包了
               （报了很多错误，查阅了很多英文文档才找到答案，国内没有找到相关问题答案）

             成功后就可以利用本地的python和本地相关组件（spark,kafka hdfs）调试和操作远程组件了！
              成功后会在本地环境生成（多线程模拟集群）写入的hdfs文件


可以调试了，操作本地文件还是很有用的哈！

秒客网

利用Pycharm本地调试spark-streaming（包含kafka和zookeeper等操作）

相关文章