记录python爬取猫眼票房排行榜(带stonefont字体网页),保存到text文件,csv文件和MongoDB数据库中

时间:2022-03-28 16:08:19

猫眼票房排行榜页面显示如下:

记录python爬取猫眼票房排行榜(带stonefont字体网页),保存到text文件,csv文件和MongoDB数据库中

注意右边的票房数据显示,爬下来的数据是这样显示的:

记录python爬取猫眼票房排行榜(带stonefont字体网页),保存到text文件,csv文件和MongoDB数据库中

网页源代码中是这样显示的:

记录python爬取猫眼票房排行榜(带stonefont字体网页),保存到text文件,csv文件和MongoDB数据库中

这是因为网页中使用了某种字体的缘故,分析源代码可知:

记录python爬取猫眼票房排行榜(带stonefont字体网页),保存到text文件,csv文件和MongoDB数据库中

亲测可行:

  代码中获取的是国内票房榜,稍加修改也可适用于最受期待榜和北美票房榜

解决思路如下:

1.获取网页数据后,查找字体信息,获取到字体链接,下载字体保存到本地

2.使用fontTools读取字体中的字符集,并构造字典(依据基准字体)

3.根据字典,替换网页中的相关数据信息。

注意:如果使用BeautifulSoup一定要先使用字典替换字符集,再解析。直接解析BeautifulSoup会将无法识别的字符置为空。

#!/usr/bin/env python
# -*- coding: utf-8 -*-
"""
@Project:pachong
@author:sandu
@Email: sandu12345@msn.cn
@Software: PyCharm
@file: test_maoyan.py
@time: 2019-01-08 0008 上午 10:05
""" import csv
import json
import os
import re
from hashlib import md5 import pymongo
import requests
from fontTools.ttLib import TTFont
from requests.exceptions import RequestException import woff2otf MONGO_URL = 'localhost'
MONGO_DB = 'maoyan'
MONGO_TABLE = 'maoyan_beimei' client = pymongo.MongoClient(MONGO_URL, connect=False)
db = client[MONGO_DB] # 获取单页数据
def get_one_page(url):
try:
response = requests.get(url)
if response.status_code == 200:
return response.text
return None
except RequestException:
return None # 解析单页数据,获取所需的数据
# '.*?board-index.*?>(\d+).*?' 获取顺序号
# '.*?data-src="(.*?)".*?' 获取图片链接
# '.*?name.*?title.*?>(.*?)</a>.*?' 获取电影名称
# '.*?star">(.*?)</p>.*?',re.S 获取演员名单(有换行,需要加上re.S,否则获取不到数据)
# '.*?releasetime">(.*?)</p>.*?' 获取上映时间
# '.*?integer">(.*?)</i>.*?' 获取主分
# '.*?fraction">(.*?)</i>.*?'获取辅分 # '.*?realtime.*?stonefont">(.*?)</span></span>(.*?)</p>.*?' 实时票房
# '.*?total-boxoffice.*?stonefont">(.*?)</span></span>(.*?)</p>.*?' 总票房
# 综合下来,加上最外层的dd def parse_one_page(html):
pattern = re.compile(
'<dd>.*?board-index.*?>(\d+).*?data-src="(.*?)".*?name.*?title.*?>(.*?)</a>.*?star">(.*?)</p>.*?releasetime">(.*?)</p>.*?realtime.*?stonefont">(.*?)</span></span>(.*?)</p>.*?total-boxoffice.*?stonefont">(.*?)</span></span>(.*?)</p>.*?</dd>',
re.S)
items = re.findall(pattern, html)
for item in items:
yield {
'index': item[0],
'img': item[1],
'name': item[2].strip(), # 去除前后空格换行符等
'star': item[3].strip()[3:], # 去除前后空格换行符等,切片截取指定的范围
'time': item[4][5:],
'实时票房': item[5] + item[6].strip(),
'总票房': item[7] + item[8].strip(),
} # 保存至文件
def save_to_file(content):
# 注意:把json数据保存到文件中显示出中文
with open('beimei.text', 'a', encoding='utf-8') as f:
f.write(json.dumps(content, ensure_ascii=False) + '\n') # 保存到数据库中
def save_to_mongo(result):
if db[MONGO_TABLE].insert(result):
print('Successfully Saved to Mongo', result)
return True
return False # 请求图片url,获取图片二进制数据
def download_image(url):
try:
response = requests.get(url)
if response.status_code == 200:
save_image(response.content) # response.contenter二进制数据 response.text文本数据
return None
except RequestException:
print('请求图片出错')
return None # 数据存储到csv
def write_to_file3(item):
with open('beimei.csv', 'a', encoding='utf_8_sig', newline='') as f:
# 'a'为追加模式(添加)
# utf_8_sig格式导出csv不乱码
fieldnames = ['index', 'img', 'name', 'star', 'time', '实时票房', '总票房']
w = csv.DictWriter(f, fieldnames=fieldnames)
w.writerow(item) # 解析字体
def get_font_regx(html):
p = re.compile(r"url\('(.*?)'\)\sformat\('woff'\);") # 查找网页上的字体链接
uni_font_url = re.findall(p, html)
url = 'http:%s' % uni_font_url[0]
resp = requests.get(url)
with open('maoyan.woff', 'wb') as fontfile:
for chunk in resp.iter_content(chunk_size=1024):
if chunk:
fontfile.write(chunk) # 将字体下载到本地
woff2otf.convert('maoyan.woff', 'maoyan.otf')
baseFont = TTFont('base.otf') # base.otf是某一次访问获取的字体文件,然后人工识别内容,作为与后面获取字体的比对标本,从而让电脑自动获得后面获取字体的实际内容。
maoyanFont = TTFont('maoyan.otf')
uniList = maoyanFont['cmap'].tables[0].ttFont.getGlyphOrder() # 解析otf字体后获得的数据
numList = [] # 解析otf字体数据转换成数字
baseNumList = ['.', '', '', '', '', '', '', '', '', '', '']
baseUniCode = ['x', 'uniE78E', 'uniF176', 'uniEFE6', 'uniF074', 'uniE9C8', 'uniE912', 'uniEA71', 'uniE74E',
'uniE4B8', 'uniEE71']
for i in range(1, 12):
maoyanGlyph = maoyanFont['glyf'][uniList[i]]
for j in range(11):
baseGlyph = baseFont['glyf'][baseUniCode[j]]
if maoyanGlyph == baseGlyph:
numList.append(baseNumList[j])
break
uniList[1] = 'uni0078'
new_dict = dict(zip(uniList[2:], numList[1:])) # 实时获取字体映射关系
html = html.replace('&#x', 'uni')
for key in new_dict.keys():
initstr = key.lower() + ';'
html = html.replace(initstr, new_dict[key])
return html def save_image(content):
file_path = '{0}/{1}.{2}'.format(os.getcwd(), md5(content).hexdigest(), 'jpg')
if not os.path.exists(file_path):
with open(file_path, 'wb') as f:
f.write(content) def main(offset):
url = 'https://maoyan.com/board/2?offset=' + str(offset) # 针对分页
html = get_one_page(url)
html = get_font_regx(html)
for item in parse_one_page(html):
print(item)
save_to_file(item) # 保存至文件
write_to_file3(item) # 写入到csv文件中,一定要写在保存到数据库的前面,因为先保存到数据库后保存的字典数据中会多一个_id值
save_to_mongo(item) # 保存到数据库
# download_image(item['img']) # 下载图片保存到当前目录 if __name__ == '__main__':
# for i in range(0, 100):
# main(str(i*10))
# 开启多线程
# pool = Pool()
# pool.map(main,0) main(0)
# 注:如何获取代码中base.otf相关信息?
# 1.根据获取到的woff字体文件,使用百度字体编辑器,获取字体数字等相关信息,地址:http://fontstore.baidu.com/static/editor/index.html
记录python爬取猫眼票房排行榜(带stonefont字体网页),保存到text文件,csv文件和MongoDB数据库中 # 2.将获取到的woff文件使用woff2otf.convert('maoyan.woff', 'base.otf')转化成base.otf文件保存到当前目录(./woff2otf.py font.woff font.otf),从而获得baseFont(代码中变量)
# 3.根据百度字体编辑器获取到的信息,构造baseNumList和baseUniCode(代码中变量) # 4.再次发起请求根据获得的字体跟这个构造的基准字体进行对照,从而获得新的字体映射关系 # 注: woff2otf是导入的一个py文件,链接地址:https://github.com/hanikesn/woff2otf,作用是输入woff字体,输出otf字体 # 保存到csv文件中
 记录python爬取猫眼票房排行榜(带stonefont字体网页),保存到text文件,csv文件和MongoDB数据库中

# 保存到MongoDB数据库中

记录python爬取猫眼票房排行榜(带stonefont字体网页),保存到text文件,csv文件和MongoDB数据库中

记录python爬取猫眼票房排行榜(带stonefont字体网页),保存到text文件,csv文件和MongoDB数据库中的更多相关文章

  1. Python爬取猫眼top100排行榜数据【含多线程】

    # -*- coding: utf-8 -*- import requests from multiprocessing import Pool from requests.exceptions im ...

  2. Python 爬取 猫眼 top100 电影例子

    一个Python 爬取猫眼top100的小栗子 import json import requests import re from multiprocessing import Pool #//进程 ...

  3. 票房和口碑称霸国庆档,用 Python 爬取猫眼评论区看看电影《我和我的家乡》到底有多牛

    今年的国庆档电影市场的表现还是比较强势的,两名主力<我和我的家乡>和<姜子牙>起到了很好的带头作用. <姜子牙>首日破 2 亿,一举刷新由<哪吒之魔童降世&g ...

  4. 爬虫系列(1)-----python爬取猫眼电影top100榜

    对于Python初学者来说,爬虫技能是应该是最好入门,也是最能够有让自己有成就感的,今天在整理代码时,整理了一下之前自己学习爬虫的一些代码,今天先上一个简单的例子,手把手教你入门Python爬虫,爬取 ...

  5. python 爬取猫眼电影top100数据

    最近有爬虫相关的需求,所以上B站找了个视频(链接在文末)看了一下,做了一个小程序出来,大体上没有修改,只是在最后的存储上,由txt换成了excel. 简要需求:爬虫爬取 猫眼电影TOP100榜单 数据 ...

  6. Python 爬取猫眼电影最受期待榜

     主要爬取猫眼电影最受期待榜的电影排名.图片链接.名称.主演.上映时间. 思路:1.定义一个获取网页源代码的函数: 2.定义一个解析网页源代码的函数: 3.定义一个将解析的数据保存为本地文件的函数: ...

  7. 爬虫--requests爬取猫眼电影排行榜

    '''目标:使用requests分页爬取猫眼电影中榜单栏目中TOP100榜的所有电影信息,并将信息写入文件URL地址:http://maoyan.com/board/4 其中参数offset表示其实条 ...

  8. scrapy爬取猫眼电影排行榜

    做爬虫的人,一定离不开的一个框架就是scrapy框架,写小项目的时候可以用requests模块就能得到结果,但是当爬取的数据量大的时候,就一定要用到框架. 下面先练练手,用scrapy写一个爬取猫眼电 ...

  9. 使用xpath爬取猫眼电影排行榜

    最近在学习xpath,在网上找资料的时候,发现一个新手经常拿来练手的项目,爬取猫眼电影前一百名排行的信息,很多都是跟崔庆才的很雷同,基本照抄.这里就用xpath自己写了一个程序,同样也是爬取猫眼电影, ...

随机推荐

  1. Redmi Note3 hennessy 刷机过程记录

    本文只是凭记忆,记录大致的步骤,提供线索. 准备 刷机包和supersu刷机包,到xiaomi.eu上下载, 如果是稳定版可能有锁bootloader,需要到下载解锁软件.开发版无锁 刷入recove ...

  2. 20条Linux命令面试问答

    程序师  http://www.techug.com/20-linux-command-interview-questions 问:1 如何查看当前的Linux服务器的运行级别? 答: ‘who -r ...

  3. ACdream1063——平衡树

    1.题目大意:让你设计一种数据结构,支持插入一个数,和在这个结构里查询结构中的哪个数和给定的数的异或值最小 2.分析:这个怎么做呢,就是trie树,我们建立一个trie树,把树按01进制存进去,然后在 ...

  4. ReentrantReadWriteLock类和ReentrantLock类的区别

    Java.util.concurrent.locks包定义了两个锁类,ReentrantLock和ReentrantReadWriteLock类. 当有很多线程都从某个数据结构中读取数据而很少有线程对 ...

  5. yum最常用的命令

    yum是一个用于管理rpm包的后台程序,用python写成,可以非常方便的解决rpm的依赖关系.在建立好yum服务器后,yum客户端可以通过 http.ftp方式获得软件包,并使用方便的命令直接管理. ...

  6. 学习了LINUX下用C语言遍历文件夹,一些心得

    struct dirent中的几个成员: d_type:4表示为目录,8表示为文件 d_reclen:16表示子目录或文件,24表示非子目录 d_name:目录或文件的名称 具体代码如下,仅供参考 # ...

  7. quartz配置时间

    我们需要把log4j的配置文件放入src目录下,启动main类就可以了. Cron Expressions cron的表达式被用来配置CronTrigger实例. cron的表达式是字符串,实际上是由 ...

  8. 【Android Developers Training】 30&period; 允许其它应用启动你的Activity

    注:本文翻译自Google官方的Android Developers Training文档,译者技术一般,由于喜爱安卓而产生了翻译的念头,纯属个人兴趣爱好. 原文链接:http://developer ...

  9. build&period;xml编译报错Specified VM install not found&colon; type Standard VM&comma; name jdk1&period;7&period;0&lowbar;45

    build.xml编译打包时报错: 解决方法: build.xml  ——  右键 ——  Run As —— External Tools Configuration 在这个页面的顶端就会看到有红叉 ...

  10. web前端3&period;0时代,&OpenCurlyDoubleQuote;程序猿”如何&OpenCurlyDoubleQuote;渡劫升仙”?

    世界上目前已经有超过18亿的网站.其中只有不到2亿的网站是活跃的.且每天都有几千个新网站不断被创造出来. 2017年成果显著,网络上出现了像Vue这样的新JavaScript框架:基于用户体验流程的开 ...