爬取国内主流电影网站的电影更新情况

时间:2022-06-26 12:38:12

项目提出背景:

大学,不能不搞点事情,做一个自己的项目,一方面有利于提升自己写代码的水平,一方面有利于自己去学习更多的东西,同时,对这个社会有点帮助。以后就业的话,这说不定还能填简历上去呢。所以从今天(2017-7–22)开始着手做这个爬虫项目(又不单单是爬虫).;

项目预期目标:

1.能达到每一个小时抓取一次目标网站电影的更新情况。
2.做到数据可视化(理想情况是能把数据导入到app上去)。

项目的具体实施过程:

1.先爬取国内主流电影网站的更新的数据
2.储存到数据库中.
3.写相应的app把数据导入到app中。
4。项目使用的语言是python,Java(写app的时候用)。


大学嘛,不做点事情就颓废了。希望能够早日完工,对自己,对别人,都有一定的帮助!!

网上更新一下,项目的进度。

最后加上一段初尝试的代码:

from urllib.request import urlopen
from urllib.error import HTTPError
from bs4 import BeautifulSoup
from time import sleep

class spider():
url = 'http://www.dytt8.net/'
html = urlopen(url)
bs4 = BeautifulSoup(html,"lxml")
#print(bs4.prettify())
test = bs4.find("",{"class":"co_content8"}).table
te = test.get_text()
b = te.split('\n')
c = []
for each in b:
if each != '' and each != "\r":
c.append(each)
name = []
date = []
for i in range(len(c)):
if i%2 == 0:
name.append(c[i])
else:
date.append(c[i])
for i in range(len(name)):
print(name[i]+"------"+date[i])

a = spider()

已经可以抓取电影天堂,最新的电影以及名字.(这只是先看看而已)