招聘网站:
目标:职位、地址、薪资、工作经验要求、学历要求。
房租网站:
以上项目全部用xls文档方式导出。
总结:
l 首先先分析详细页里面的需要获取的信息的规律,如果存在相同多标签下的信息,直接用BeautifulSoup提取[*],如果是单标签下的 直接re构造
l 在爬取第三个job网站时发现换页时url并未改变,查取翻页元素不是java方式,最终在xhr里发现&page=*函数 可构造出来。
l 切记 运用re正则构造时,一定要从内到外构造。
意外收获:尝试学有关mongodb数据库的基础操作。
l 连接:mongod -dbpath +路径 ==>连接数据库
l 表名.insert_one(data) ==>讲数据插入表
l 内置导出csv:-d 库名 -c 表名 --csv -f 导出字段 -o 2.csv文件类型。
各类用法:
l use +> 库名 #没有则创建(需要写入才会创建)写法:db.库名.insert({":"})
l show +>库名 #显示所有库 show dbs
l db.dropDatabase() #此语句可以删除当前数据库 #需要先use 然后再使用才能删除
l pycharm下使用语法:import pymongo
client = pymongo.MongoClient('localhost',27017)
mydb = client['myfirstdb']
test = mydb['test']
test.insert_one({'name':'a','sex':'b','job':'c'})