感谢哈士奇说喵 http://blog.csdn.net/MrLevo520/article/details/51966992
感谢麦子学院 麦芽老师 https://www.bilibili.com/video/av18407985/?t=3723
IDE python3.6.3
pycharm
本来计划写个窗口,里面可以显示爬下的电影天堂的链接,然后一边学爬虫一边写。结果发现在B站看见老师的课程了,所以就跟着写出来了。而窗口还得一段时间,计划用pyqt。
以下是爬取最新电影的源码,亲测可以,但是在爬的过程中会被拒绝访问。爬取的数据保存在文本中。
#名称为date.txt的文本文档保存在E:\Python\pythonProject\movies\date.txt
import requests #下载网页源代码import re #正则表达式模块,提取数据import timeimport randomprint ("please wait...system loding...")for m in range(1,10): #160页 PostUrl = "http://www.ygdy8.net/html/gndy/dyzz/list_23_"+str(m)+".html" #url的构造方式 html = requests.get(PostUrl) #获取静态网页 html.encoding = 'gb2312' #指定网页编码方式(查看网页源代码) #提取信息,返回的是列表 #匹配 以<a href="(.*?)" class="ulink">结尾的信息 date = re.findall('<a href="(.*?)" class="ulink">',html.text) #(.*?) print("第" + str(m) + "页") time.sleep(random.randint(1, 2)) for n in date: finalUrl = "http://www.ygdy8.net"+n time.sleep(random.randint(1, 2)) html2 = requests.get(finalUrl) html2.encoding = 'gb2312' ftp = re.findall('<a href="(.*?)">ftp://',html2.text) with open(r'E:\Python\pythonProject\movies\date.txt', 'a', encoding='gb2312') as f: f.write(ftp[0] + '\n') print(ftp)