百度街景URL分析

基于http抓包工具，可以很轻松的获取到浏览百度街景时的http请求数据。如下图所示，即是长江大桥某位置点街景影像切片：

Python爬虫之小试牛刀——使用Python抓取百度街景图像

该切片对应的URL请求为：

Python爬虫之小试牛刀——使用Python抓取百度街景图像

细致分析该URL请求，并经过模拟测试，可以总结出如下初步结论

请求影像切片所需的几个关键参数分别为：

① sid：代表某个具体的街景点位；

② pos：代表该切片在完整的全景影像图上的切片坐标；

③ z：代表街景影像切片级别。

单个位置的街景影像图可以生产出多种级别的切片，不同的级别下，切片的数量是不同的；切片的坐标使用行号、列号予以区分。

明确了以上百度街景影像的切片规则，就可以用代码开撸了。

Python源码

要求：一次性抓取连续10个全景点的所有级别切片信息。

源码如下：

import urllib2

import threading

from optparse import OptionParser

# from bs4 import BeautifulSoup

import sys

import re

import urlparse

import Queue

import hashlib

import os

def download(url, path, name):

    conn = urllib2.urlopen(url)

    if not os.path.exists(path):

        os.makedirs(path)

    f = open(path + name, 'wb')

    f.write(conn.read())

    f.close()

fp = open("E:\\Workspaces\\Python\\panolist.txt", "r")

for line in fp.readlines():

    line =  (lambda x: x[1:-2])(line)

    # url = line

    for zoom in range(1, 6):

        row_max = 0

        col_max = 0

        row_max = pow(2, zoom - 2) if zoom > 1 else 1

        col_max = pow(2, zoom - 1)

        for row in range(row_max):

            for col in range(col_max):

                z = str(zoom)

                y = str(row)

                x = str(col)

                print(y + "_" + x)

                url = line + "&pos=" + y + "_" + x + "&z=" + z

                path = "E:\\Workspaces\\Python\\pano\\" + url.split('&')[1].split('=')[1] + "\\" + z + "\\"

                name = y + "_" + x + ".jpg"

                print url

                print name

                download(url, path, name)

fp.close()

抓取结果如下，按上述分析的规则进行本地化存储，可以看到各级别下，所有的切片拼接起来，刚好是一张完整的全景图。

Python爬虫之小试牛刀——使用Python抓取百度街景图像

小结

① Python这门语言真的是蛮便捷，安装和配置都十分方便，也有很多IDE都支持，我初次使用，遇上问题就随手查Python语言手册，基本上半天完成该代码示例。

② 在爬虫程序方面，Python相关资源十分丰富，是爬虫开发的一把利器。

上述代码简要的实现了批量抓取百度街景影像切片数据，大量使用的话，建议继续处理一下，加上模拟浏览器访问的处理，否则很容易被服务方直接侦测到来自网络爬虫的资源请求，而导致封堵。

附 python爬虫入门（一）urllib和urllib2 https://www.cnblogs.com/derek1184405959/p/8448875.html

秒客网

Python爬虫之小试牛刀——使用Python抓取百度街景图像

百度街景URL分析

Python源码

小结

相关文章