python 从爬虫开始(一)
Python 简介
首先简介一下Python和爬虫的关系与概念,python 是一门编程语言,爬虫是python语言的一种应用场景。因为其简单和容易入门,被很多人所喜爱,也是比较热门的一款语言,在2019年5月的调查排行中,python 语言排行在第四名,因为Python的语言特色(简短快捷)被称为脚本语言,又能够和多平台多语言交互和结合使用,也被称为“胶水语言”,python不是万能的,但是却可以应用到很多场景,最出名的就是应用在网络爬虫和人工智能的研究方面,今天就先谈谈爬虫,后面会谈到人工智能的应用和场景。
python 环境安装与配置
我们磨刀不误砍柴工,开始编程之前,先安装好python的环境和响应的配置:
这里提供python 3.6版本的下载链接(目前最新是3.7版本,也可以下载3.7版本)链接:https://pan.baidu.com/s/1gxtwAqIGEey3KYwiaOgDew
提取码:hk13
上面是基于windows10/windows7/windows8 64位 版本的安装程序,如果想要安装其他系统的版本,点击下面的链接 下载
提示:
1.安装的位置最好放置在非系统盘,便于以后的第三方包的安装与卸载(很多小迷糊,默认安装后,一旦要改变一些环境变量或者路径之后,发现自己程序执行权限有问题或者一些奇怪错误)
2.安装之后,如非必要不要使用全部第三方包自动升级的脚本,在以后的文章中,我会提供自动更新第三方包的脚本和实现原理的讲解,这里暂时不提。
python ide 的安装与使用
这里推荐两个软件用于Python程序的编写,其中之一是非常热门的pycharm链接:https://pan.baidu.com/s/11bD88RTW4lSLHVqu7GQ4qw
提取码:vqoh
安装很简单,还是遵守尽量不安装到C盘的原则,安装之后在设置里勾选好需要的Python开发环境既Python安装的路径(python.exe所在路径)我安装的位置就是在这里F:\python36,根据自己的实际情况修改
还有一个软件当然就是Subline Text3 啦,这个软件用于编写Python程序的优势在于方便处理多种不同的编码以及其他编程语言,并且在pycharm中启动程序有可能出现第三方包已经安装但是无法被成功引入的情况。还有一点,sublime Text 可以培养比较好的编程习惯(瞎掰的)根据自己的实际需求选择任意一个软件安装使用即可。
链接:https://pan.baidu.com/s/1EY7bTRIpvgyQsnQJbhQ16Q
提取码:qurr
当然如果不需要额外的软件,在配置好系统环境变量之后,直接cmd ,然后输入python,可以启动python自带的IDE,不过用这个方式进行函数测试还不错,如果用于开发,我只能称呼你为最强!!
以下是配置环境变量 右键电脑——属性——高级系统设置——环境变量,然后在系统变量和用户变量中分别找到path,然后把下图两个环境变量配置好。(只配置第一个环境变量就可以启动Python IDE,第二个环境变量是为了在cmd下可以直接启动pip,这个下次用到再细说)
python 实现第一句代码
print(“hello world!”)
如果再ide里输出成功,恭喜你可以开始Python的开发之路了
啰嗦一句:这里启动ide的方式前面也说了,运行脚本的方法提一下,
这是python自带的ide
这是通过cmd启动其他软件编写的py文件,py属于可执行文件,可以直接双击运行,但是双击运行结束后就会关闭弹窗,对于新手来说最好还是通过cmd启动,便于调试和查看结果。
python 引入第三方包
Python 引入第三方包的方式是通过 import 包名
import os
from PIL import Image
print("hello world!")
python 是非常灵活的一种语言,可以引入一个包的所有方法,例如第一句,也可以引入一个包的其中一种方法,例如第二句,同样的自己也可以编写方法,然后被引入,也可以打包成相应的方法API,上传python开发社区,被更多人使用(扯远了)
刚才这三行代码,在运行的时候会出现错误,错误提示 no moodul named PIL
不要方,这是因为我们只安装了程序,没有引入PIL这个第三方包,当然比较新的版本已经把PIL加入了系统安装包之中
我只是为了引入接下来的内容
遇到这样的错误,我们可以使用这句代码来解决 pip install 包名
如果再之前环境配置的时候已经把F:\python36\Scripts配置到path中之后,可以直接
安装完成后,在运行发现就没有错误提示啦
Python 实现一个爬虫吧
from urllib.request import urlopen
from urllib.request import Request
url="https://www.csdn.net/"
req=Request(url)
content=urlopen(req).read().decode("utf-8")
print(content)
人很话不多,先上代码,这是非常简单的一个爬虫,代码会爬取csdn首页的网页信息,并输出在命令窗
哒哒哒,已经拿到了csdn首页的网页代码数据了,但是这肯定不是我们需要的内容呀,我们需要提取出对我们有意义的数据,具体的方法就留在下一篇文章里了,打字真累,喜欢就点歌赞吧,谢谢!