小知识:
当小娜搜索显示空白的时候,怎么解决?
任务管理器结束小娜进程就好了= =*(多半是惯得,关掉就好了!)
任务1:CSV文件的基本操作
import csv import pandas as pd #写入csv文件会出现空行的情况,加入newline with open('data.csv','w',encoding='utf-8',newline='') as file: writer = csv.writer(file,delimiter=' ') writer.writerow(['id','name','age']) writer.writerows([['1','123','19'],['2','123','19']]) #普通的读取csv文件 with open('data.csv','r',encoding='utf-8') as file: reader = csv.reader(file) for row in reader: print(row) #用pandas的read_csv读取,会多一个序号列 df = pd.read_csv('data.csv') print(df)
任务2:代理池(还没学会)
''' 代理池 存储模块:存储在redis数据库的Sorted Set(有序存储)--能保证不重复 获取模块:实时在各大代理网站抓取代理,存储形式(IP:PORT),优先高匿代理 检测模块:定时检测数据库中的代理,爬取哪个网站就检测哪个网站,100分表示可用, 检测一次可用分数+1,不可用分数-1,低于某个值直接从数据库删除 思路2:可用即置为100,100为最大,失败一次-1,成功一次置为100 接口模块:需要用API提供对外接口,提供一个web api接口,避免去数据库找的繁琐, 通过访问接口获得可用代理 有点麻烦,暂时没时间弄,先学个简单的 免费代理: 西刺代理:https://www.xicidaili.com/ 快代理:https://www.kuaidaili.com/free/inha/ 小幻HTTP代理:https://ip.ihuan.me/ 89免费代理:http://www.89ip.cn/ 66免费代理:http://www.66ip.cn/ 3366云代理:http://www.ip3366.net/ ''' import requests # 根据协议类型,选择不同的代理 headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.109 Safari/537.36', } proxies = { "http": "http://112.85.130.143:9999", "https": "http://116.209.52.49:9999", } response = requests.get("http://www.baidu.com", headers=headers, proxies=proxies) print(response.text)
总结:
今天努力写论文中,没怎么学习python
目测接下来三天都以论文为主