python爬取电影天堂 _上

时间:2021-07-20 12:21:55

感谢哈士奇说喵 http://blog.csdn.net/MrLevo520/article/details/51966992

感谢麦子学院 麦芽老师 https://www.bilibili.com/video/av18407985/?t=3723

IDE python3.6.3

pycharm

本来计划写个窗口,里面可以显示爬下的电影天堂的链接,然后一边学爬虫一边写。结果发现在B站看见老师的课程了,所以就跟着写出来了。而窗口还得一段时间,计划用pyqt。

以下是爬取最新电影的源码,亲测可以,但是在爬的过程中会被拒绝访问。爬取的数据保存在文本中。

#名称为date.txt的文本文档保存在E:\Python\pythonProject\movies\date.txt
import requests #下载网页源代码import re       #正则表达式模块,提取数据import timeimport randomprint ("please wait...system loding...")for m in range(1,10):  #160页    PostUrl = "http://www.ygdy8.net/html/gndy/dyzz/list_23_"+str(m)+".html" #url的构造方式    html = requests.get(PostUrl)  #获取静态网页    html.encoding = 'gb2312' #指定网页编码方式(查看网页源代码)    #提取信息,返回的是列表    #匹配 以<a href="(.*?)" class="ulink">结尾的信息    date = re.findall('<a href="(.*?)" class="ulink">',html.text) #(.*?)    print("第" + str(m) + "页")    time.sleep(random.randint(1, 2))    for n in date:        finalUrl = "http://www.ygdy8.net"+n        time.sleep(random.randint(1, 2))        html2 = requests.get(finalUrl)        html2.encoding = 'gb2312'        ftp = re.findall('<a href="(.*?)">ftp://',html2.text)        with open(r'E:\Python\pythonProject\movies\date.txt', 'a', encoding='gb2312') as f:            f.write(ftp[0] + '\n')        print(ftp)

python爬取电影天堂 _上

python爬取电影天堂 _上