PyCharm远程连接Spark【本地虚拟机或云主机】

时间:2024-03-31 10:21:36

环境说明:

1、本地虚拟机版本是 CentOS6.9 | 连接的云主机是 Ubuntu18.04。【两个都连接成功了,方法步骤一样】

2、保证虚拟机上的 Spark 能正常运行,并且启动了Spark。

3、Spark 版本 2.4.5 。

连接步骤:

1、在虚拟机上安装 py4j 安装包。

pip install py4j

2、对本地 PyCharm 设置,依次找到以下。

Tools -> Deplovment -> Configuration。

PyCharm远程连接Spark【本地虚拟机或云主机】

3、点击 + ,选择 SFTP。【也可以自选其他】

PyCharm远程连接Spark【本地虚拟机或云主机】

4、先设置 Connetcion

Visible only for this project :确定该会话在哪些工程中显示,勾选就只在本工程中显示该会话,不勾选就在所有的工程中显示。

Type:类型自定义,这里我们一般选择 SFTP。

Host:连接的虚拟机的IP。

Port:连接的端口号,确认是开放的。

User name:登录用户名。

Test Connetcion:测试是否连接。

Root path:代表连接之后项目的所放置的根目录,默认上传目录。

Web server URL:项目在部署后的链接

PyCharm远程连接Spark【本地虚拟机或云主机】

5、点击 Test Connection ,会如下图所示:

PyCharm远程连接Spark【本地虚拟机或云主机】

6、设置 Mappings

Local path :本地项目位置

Deployment path :上传到服务器的路径,这里设置直接上传到 / 目录下,也可以不写 / ,默认继承前一个的部署位置。

Web path :不用填,默认就是之前的 URL。

下面的灰色英文就是解释。

PyCharm远程连接Spark【本地虚拟机或云主机】

7、 File -> settings。

PyCharm远程连接Spark【本地虚拟机或云主机】

8、Project:项目名 下面有一个 Project Interpreter 。

PyCharm远程连接Spark【本地虚拟机或云主机】

9、点击 SSH Interpreter ,选择 Existing server configuration ,选择我们配置的,192.168.52.100 ,点击 next 。

PyCharm远程连接Spark【本地虚拟机或云主机】

10、选择 python 位置,对于虚拟机本身自带2.7版本如果没有卸载,一般是 /usr/bin/python3 ,具体通过 whereis python 来确定。下面的路径是上传项目的临时目录,文件会上传到虚拟机该位置。

PyCharm远程连接Spark【本地虚拟机或云主机】

11、运行项目之前,设置 Edit Configurations

PyCharm远程连接Spark【本地虚拟机或云主机】

12、将 Python interpreter 选择我们之前设置的就可以了。

PyCharm远程连接Spark【本地虚拟机或云主机】