AddressCrawer:全国各城市地名抓取,包含街道、村落、小区、商店、景点等

时间:2024-06-02 22:01:13
【文件属性】:

文件名称:AddressCrawer:全国各城市地名抓取,包含街道、村落、小区、商店、景点等

文件大小:3KB

文件格式:ZIP

更新时间:2024-06-02 22:01:13

Python

AddressCrawer 全国各城市地名抓取,包含街道、村落、小区、商店、景点等 博客链接: 之前做命名实体识别地址时,因为丽江很多地名比较奇怪,不能直接用pyltp提取,准备添加自定义字典,增加地址提取准确率。 地址数据源: 这里以丽江为例,其他地方的地名爬取原理一样的。 获取地址分类: // 当前页面地址:http://poi.mapbar.com/lijiang/901/ // css选择器 $(".sortBox a") // init(211) [a#520, a#530, a#541, a $(".sortBox a")[0][removed] // "超市" $(".sortBox a")[0].href // "http://poi.mapbar.com/lijiang/520/" 提取地名: // 提取某个分类下所有地名标签 // css选择器 $(".sortC a


【文件预览】:
AddressCrawer-master
----address_crawer.py(1KB)
----README.md(2KB)
----.gitignore(1KB)

网友评论