教程 | 一步步从零开始:使用PyCharm和SSH搭建远程TensorFlow开发环境

时间:2021-12-13 03:24:36

作者:Erik Hallström

机器之心编译

参与:机器之心编辑部

一般而言,大型的神经网络对硬件能力有着较高的需求——往往需要强劲的 GPU 来加速计算。但是你也许还是想拿着一台笔记本坐在咖啡店里安静地写 TensorFlow 代码,同时还能享受每秒数万亿次的浮点运算(teraFLOPS)速度?其实这个目标不难实现,使用 PyCharm 中的一个远程解释器,你就能通过远程的方式获得几乎和本地计算时一样的性能。Erik Hallström 在本文中分享了如何使用 PyCharm、TensorFlow 和 SSH 搭建远程机器学习平台的过程。

需要注意的是,目前仅有 PyCharm Professional 支持这一功能,Community Edition 尚不支持。

远程数据处理机器

教程 | 一步步从零开始:使用PyCharm和SSH搭建远程TensorFlow开发环境

希望你的远程机器看起来不是这样的。

我们的目标是搭建一个固定的远程机器,其中有一个或多个先进的 GPU,必须是英伟达的——虽然我不喜欢目前深度学习硬件领域的这种垄断,但 TensorFlow 只能使用英伟达的 GPU。

首先,让我们安装最新版本的 Ubuntu,我推荐你使用桌面版,你可以终止其 GUI 服务,然后释放图形内存。然后将你的计算机联网,并通过在终端(Terminal)输入 ifconfig 来获取 IP 地址,在本文中,我假设我们的 IP 地址是 192.168.0.1,在实际操作时,你需要根据你自己的情况进行修改。

设置 SSH

为了让你的计算机与你的数据处理机器通信,你需要在其上安装 SSH。打开你的固定计算机上的终端然后输入以下代码进行安装:

sudo apt-get install ssh

启用 SSH X11 转发让你可以进行绘图(plot),首先如下打开配置文件:

sudo gedit /etc/ssh/sshd_config

然后找到注释行:

# X11Forwarding yes

移除前面的 # 号,然后保存并关闭该文件。

显卡

接下来安装显卡驱动,通常不同的显卡都有自己专用的驱动,所以你需要在你的软件包管理器中增加一个新的库(repository)。你所需的软件请根据你自己的显卡和 Ubuntu 版本进行选择。我在这里使用的是 NVIDIA-367,了解更多请参阅:https://help.ubuntu.com/community/BinaryDriverHowto/Nvidia

sudo add-apt-repository ppa:graphics-drivers/ppa

sudo apt-get update

sudo apt-get install nvidia-367

CUDA 和 cuDNN

现在应该安装 CUDA 工具包和 cuDNN 了,这是运行 TensorFlow 所必须的。你可以从英伟达的网站上下载它们:

  • CUDA:https://developer.nvidia.com/cuda-downloads

  • cuDNN:https://developer.nvidia.com/cudnn

注意下载 cuDNN 需要注册。这里使用的是 CUDA 8.0 和 cuDNN 5.1。对于 CUDA,我更喜欢使用内置的软件包管理器,这能让我们可以更轻松地追踪安装情况:

sudo dpkg -i cuda-repo-ubuntu1604_8.0.44-1_amd64.deb

sudo apt-get update

sudo apt-get install cuda-toolkit-8.0

确保其 symlink 设置正确:

readlink -f /usr/local/cuda

>> /usr/local/cuda-8.0

下面是如何提取 cuDNN 的头文件,并将其复制到 CUDA 文件夹,并让其可以在终端进行读取(你的一些文件名可能会有所不同):

tar xvzf cudnn-8.0-linux-x64-v5.1.tgz

sudo cp cuda/include/cudnn.h /usr/local/cuda/include

sudo cp cuda/lib64/libcudnn* /usr/local/cuda/lib64

sudo chmod a+r /usr/local/cuda/include/cudnn.h /usr/local/cuda/lib64/libcudnn*

最后添加你所需的环境变量,将它们附加到你的 .bashrc 文件,然后对其执行 source 命令:

echo 'export LD_LIBRARY_PATH=”$LD_LIBRARY_PATH:/usr/local/cuda/lib64:/usr/local/cuda/extras/CUPTI/lib64"' >> ~/.bashrc

echo 'export CUDA_HOME=/usr/local/cuda' >> ~/.bashrc

source ~/.bashrc

Python 和 TensorFlow

安装一些所需的 Python 包:

sudo apt-get install python-pip python-dev build-essential python-numpy python-scipy python-matplotlib

然后安装启用了 GPU 的 TensorFlow,你可以在这个页面查阅你所需的版本:

https://www.tensorflow.org/versions/r0.11/get_started/os_setup.html ;

注意 TF_BINARY_URL 根据不同的系统而有所不同:

export TF_BINARY_URL=https://storage.googleapis.com/tensorflow/linux/gpu/tensorflow-0.11.0rc2-cp27-none-linux_x86_64.whl

pip install --ignore-installed --upgrade $TF_BINARY_URL

验证安装是否有效,在终端输入:

python

import tensorflow

如果你已经成功安装了 GPU 已启用的系统,你会得到类似下面的输出:

>I tensorflow/stream_executor/dso_loader.cc:111] successfully opened CUDA library libcublas.so locally

>I tensorflow/stream_executor/dso_loader.cc:111] successfully opened CUDA library libcudnn.so locally

>I tensorflow/stream_executor/dso_loader.cc:111] successfully opened CUDA library libcufft.so locally

>I tensorflow/stream_executor/dso_loader.cc:111] successfully opened CUDA library libcuda.so.1 locally

>I tensorflow/stream_executor/dso_loader.cc:111] successfully opened CUDA library libcurand.so locally

搞定了吗?下面该配置你的笔记本了!

超级便利的笔记本

教程 | 一步步从零开始:使用PyCharm和SSH搭建远程TensorFlow开发环境

打开你的笔记本电脑,然后将其连接到你的固定计算机所在的本地网络:

各种安装

我使用的是一台 Macbook,所以我可以使用一个名叫 Homebrew 的软件包管理器安装程序。甚至也可以使用 Homebrew Cask 轻松安装桌面应用。

  • Homebrew:http://brew.sh/

  • Homebrew Cask:https://caskroom.github.io/

安装 Homebrew 和 Cask:

/usr/bin/ruby -e “$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)"brew tap caskroom/cask

安装你所需的,包括 PyCharm IDE:

brew install cask ssh-copy-id python

brew cask install java pycharm xquartz

设置 SSH

通过执行下列代码生成一组 SSH 密钥对,然后继续参考该指南(如果你之前没有经验):

ssh-keygen -t rsa

现在将该密钥复制到你的远程机器,这样你以后连接它时就不用每次都输入密码了。第一次连接的时候你需要使用你远程机器的密码进行认证:

ssh-copy-id [remote username here]@[remote Ip here]

通过将以下代码附加到你本地机器上的 config 文件来启用压缩和 X11 转发(对数据绘图有用):

echo 'ForwardX11 yes' >> ~/.ssh/config

echo 'Compression yes' >> ~/.ssh/config

用你的笔记本连接你的运程机器,检查一下结果:

ssh [remote username here]@[remote Ip here]

现在还登录着,你应该禁用你的远程机器上的密码登录(为了安全)。使用你最喜欢的命令行编辑器打开配置文件:

sudo vim /etc/ssh/sshd_config

然后取消以下 # 行的注释:

PasswordAuthentication no

在你登录着你的远程机器时重启你的 SSH 服务器(你必须重新验证一次):

service ssh restart

在你用 SSH 登录着你的远程机器时,你应该要做的最后一件事是找到你的显示器环境变量。后面我们将会用其来 plotting,我通常得到的是 localhost:10.0.

echo $DISPLAY

> localhost:10.0

记住这个命令的输出,后面会用到。

PyCharm 中的远程解释器

教程 | 一步步从零开始:使用PyCharm和SSH搭建远程TensorFlow开发环境

这部分很有意思,我们如何设置远程解释器(remote interpreter)从而让你能在远程机器上执行脚本呢?首先启动 PyCharm,然后新建一个 Python 项目。

解释器(Interpreter)

打开 Preferences > Project > Project Interpreter,点击右上角的加点按钮,然后点击 Add remote。

教程 | 一步步从零开始:使用PyCharm和SSH搭建远程TensorFlow开发环境

点击 SSH Credentials 按钮然后输入你的信息。选择 Auth Type 上的 Key pair,然后选择 Private Key file。其路径应该是 /Users/<your username>/.ssh/id_rsa

教程 | 一步步从零开始:使用PyCharm和SSH搭建远程TensorFlow开发环境

点击 OK > Apply。注意 Project Interpreter 上的 R 表示远程。

教程 | 一步步从零开始:使用PyCharm和SSH搭建远程TensorFlow开发环境

部署

该远程解释器不能执行本地的文件,PyCharm 必须将你的源文件(你的项目)复制到你的远程服务器上的目标文件夹,但这是自动完成的,所以你无需多想!当你在 Preferences 面板时,打开 Build, Execution, Deployment > Deployment > Options,确保勾选了 Create empty directories。这样当你创建文件夹时,PyCharm 就会自动同步:

教程 | 一步步从零开始:使用PyCharm和SSH搭建远程TensorFlow开发环境

现在回到 Build, Execution, Deployment > Deployment,然后点击 + 按钮,选择 SFTP 并为你的远程命名。点击 OK:

教程 | 一步步从零开始:使用PyCharm和SSH搭建远程TensorFlow开发环境

在 SFTP host 中首次输入你的远程机器的 IP 来设置连接,然后选择 Auth type 上的 Key pair,最后选择 Private Key file,路径应该是 /Users/<your username>/.ssh/id_rsa,如截图所示。然后你可能需要点击 Test SFTP connection 进行测试。如果你连接成功了,就应该设置 mapping 了。如果你愿意,你可以点击 Rooth path 旁边的 Autodetect,然后它会自动寻找你的远程机器上的主目录。在此之后你所特定的所有路径都将相对于该主路径。然后转到 Mappings 标签。

教程 | 一步步从零开始:使用PyCharm和SSH搭建远程TensorFlow开发环境

一旦你在你的本地路径中保存或创建了一个文件,它就将会被复制到远程机器上的 Deployment path,也许你想将其部署到如下所示的 DeployedProjects/ 文件夹。这是相对于你前面指定的 Rooth path,所以在我们的这个例子中,绝对的部署路径是:/home/username/DeployedProjects/TestProject/

教程 | 一步步从零开始:使用PyCharm和SSH搭建远程TensorFlow开发环境

现在我们完成了偏好设置,点击 Apply > OK,然后点击 Tools > Deployment > Automatic Upload,确认其被选择了:

教程 | 一步步从零开始:使用PyCharm和SSH搭建远程TensorFlow开发环境

要进行初始上传,右击项目浏览器中的项目文件夹,然后点击 Upload to remote:

教程 | 一步步从零开始:使用PyCharm和SSH搭建远程TensorFlow开发环境

在你的底部面板应该会出现一个 File transfer 标签,你可以查看进程:

教程 | 一步步从零开始:使用PyCharm和SSH搭建远程TensorFlow开发环境

然后点击 Tools > Deployment > Browse Remote Host。将该窗口拖拽到左边 Project 标签下面。这样你就能轻松地在本地和远程项目之间切换了。

教程 | 一步步从零开始:使用PyCharm和SSH搭建远程TensorFlow开发环境

一旦你保存并运行了一个文件后,这些部署设置将会无缝工作,它完成得非常快,你可能都无法察觉。

设置控制台

打开 Preferences > Build, Execution, Deployment > Console > Python console 然后选择 Python interpreter。然后点击 Dotted button 并输入所需的之间我们加入到 ~/.bashrc 中的环境变量。注意我们也给 DISPLAY 变量加了一个值,这个值是我们之前使用 SSH 连接服务器时找到的:

教程 | 一步步从零开始:使用PyCharm和SSH搭建远程TensorFlow开发环境

然后回到 Preferences > Build, Execution, Deployment > Console > Python console 然后选择 Always show the debug console。这在我们调试的时候非常有用:

教程 | 一步步从零开始:使用PyCharm和SSH搭建远程TensorFlow开发环境

创建一个运行配置

在你的项目中创建一个简单的名为 test.py 的测试文件,其中仅包含:

importtensorflow

print"Tensorflow Imported"

现在进入 Run > Edit Configurations…,点击 + 按钮创建一个新的 Python 配置。为其命名后选择该脚本运行:

教程 | 一步步从零开始:使用PyCharm和SSH搭建远程TensorFlow开发环境

现在像之前一样进入所需的环境变量。小技巧:你可以直接从我们之前指定的控制台设置中直接复制它们,在左下角使用 Ctrl+A 和复制/粘贴即可。你可以通过点击 Environment variables 一行后面的加点按钮获取它们。

教程 | 一步步从零开始:使用PyCharm和SSH搭建远程TensorFlow开发环境

点击 OK > OK 开始测试!

测试该设置

现在我们应该全部完成了,改进行测试了。首先打开终端并确保你至少有一个带有 X 转发的 SSH 信道连接到你的服务器。如果你的连接已经开启了一段时间了,你可能必须退出并重启它们:

ssh [remote username here]@[remote Ip here]

控制台

然后打开 PyCharm 中底部栏的 Python Console 并输入 import tensorflow。然后你可以输入 ls/ 来验证你确实在你的服务器上执行该命令。输出应该是这样的:

教程 | 一步步从零开始:使用PyCharm和SSH搭建远程TensorFlow开发环境

运行脚本

现在回到你的 test.py 脚本,然后选择顶部栏的 Run > Run…。选择你新建的运行配置 Test,其应该输出这样的结果:

教程 | 一步步从零开始:使用PyCharm和SSH搭建远程TensorFlow开发环境

绘图

让我们做一些绘图,把你的 test.py 文件改成这样:

import tensorflow

import matplotlib

matplotlib.use('GTKAgg')

import matplotlib.pyplot as plt

import numpy as np

print "Tensorflow Imported"

plt.plot(np.arange(100))

plt.show()

接着用你的运行配置 Test 再一次运行它,你会得到这个图:

教程 | 一步步从零开始:使用PyCharm和SSH搭建远程TensorFlow开发环境

这个图实际上在你的远程服务器上完成,但是窗口数据被转向到了你的本地机器。注意我们可以用 matplotlib.use('GTXAgg') 改变支持,因为它是一个支持 X11 的显示后台。你可以在这里阅读更多关于 Matplotlib 后台的信息:

http://matplotlib.org/faq/usage_faq.html#what-is-a-backend

你也可以在 matplotlibrc 文件中修改默认行为。记住在一个分离开的终端中你需要至少一个开放的 SSH 连接,使用 DISPLAY 环境变量的正确值以使其工作。如果无效尝试重新启动你的 SSH 连接。

调试脚本

最后做一些调试。点击左侧栏以放一个断点(breakpoint),接着点击 Run > Debug…,并选择 Test 配置。你将会看到执行已停止,然后你就可以远程调试脚本了。

教程 | 一步步从零开始:使用PyCharm和SSH搭建远程TensorFlow开发环境

下一步

为了使你的机器联网,你不得不在家庭路由器上转发端口,这根据不同的供应商而变化。我建议在你的路由器上转发一个超过 22 的不同端口。世界上存在很多动机不良的 bot 想要攻击你,它们会检查默认端口,也许会减慢你的连接(尽管你已经关闭了口令认证,所以你相当安全)。也许你可以把你的路由器上的端口 4343 转发到 IP 192.168.0.1 上的端口 22(该教程中我们的远程默认 IP)。另外,为了加快绘图,你也许会需要更快的加密:

http://xmodulo.com/how-to-speed-up-x11-forwarding-in-ssh.html

原文地址:https://medium.com/@erikhallstrm/work-remotely-with-pycharm-tensorflow-and-ssh-c60564be862d#.4402jqsp2