笔记!3月30日

时间:2022-06-07 12:58:01

 

 

招聘网站:

目标:职位、地址、薪资、工作经验要求、学历要求。

  1.             http://www.chinahr.com/sou/?city=24%2C279  #完成并导出xls
  2. https://www.lagou.com/!!!
    1.                  i.          http://www.cjol.com/

房租网站:

  1.              http://www.youtx.com/midlong/
  2.              https://www.muniao.com/#这个存入了数据库

以上项目全部用xls文档方式导出。

 

 

 

 

总结:

l  首先先分析详细页里面的需要获取的信息的规律,如果存在相同多标签下的信息,直接用BeautifulSoup提取[*],如果是单标签下的 直接re构造

l  在爬取第三个job网站时发现换页时url并未改变,查取翻页元素不是java方式,最终在xhr里发现&page=*函数  可构造出来。

l  切记 运用re正则构造时,一定要从内到外构造。

 

 

意外收获:尝试学有关mongodb数据库的基础操作。

l  连接:mongod -dbpath +路径      ==>连接数据库

l  表名.insert_one(data)   ==>讲数据插入表

l  内置导出csv:-d 库名 -c 表名 --csv -f 导出字段 -o 2.csv文件类型。

各类用法:

l  use   +> 库名   #没有则创建(需要写入才会创建)写法:db.库名.insert({":"})

l  show +>库名  #显示所有库 show dbs

l  db.dropDatabase()  #此语句可以删除当前数据库  #需要先use 然后再使用才能删除

l  pycharm下使用语法:import pymongo

client = pymongo.MongoClient('localhost',27017)

mydb = client['myfirstdb']

test = mydb['test']

test.insert_one({'name':'a','sex':'b','job':'c'})