Python目前是流行度增长最快的主流编程语言，也是第二大最受开发者喜爱的语言（参考Stack Overflow 2019开发者调查报告发布）。笔者建议.NET、Java开发人员可以将Python发展为第二语言，一方面Python在某些领域确实非常犀利（爬虫、算法、人工智能等等），另一方面，相信我，Python上手完全没有门槛，你甚至无需购买任何书籍！

由于近期在筹备4.21的长沙开发者大会，耽误了不少时间。不过这次邀请到了腾讯资深技术专家、.NET中国社区领袖，微软MVP张善友；52ABP开源框架的作者，微软MVP梁桐铭；知名技术类作家汪鹏，腾讯高级工程师卓伟，腾讯云高级产品经理胡李伟等等，有兴趣参加的朋友可以点击公众号菜单【联系我们】==>【报名】进行报名，技术不分语言，亦没有界限，期待和你分享、交流！

关于Python

Python是一种计算机程序设计语言。是一种动态的、面向对象的脚本语言，最初被设计用于编写自动化脚本(shell)，随着版本的不断更新和语言新功能的添加，越来越多被用于独立的、大型项目的开发。Python目前是流行度增长最快的主流编程语言，也是第二大最受开发者喜爱的语言（参考Stack Overflow 2019开发者调查报告发布）。

Python是一种解释型脚本语言，可以应用于以下领域：

Web 和 Internet开发
科学计算和统计
教育
桌面界面开发
软件开发
后端开发

Python学习起来没有门槛，但是通过它，你可以用更短的时间，更高的效率学习和掌握机器学习，甚至是深度学习的技能。不过单单只会Python对大多数人来说是不行的，你最好还掌握一门静态语言（.NET/Java）。同时，笔者也建议.NET、Java开发人员可以将Python发展为第二语言，一方面Python在某些领域确实非常犀利（爬虫、算法、人工智能等等），另一方面，相信我，Python上手完全没有门槛，你甚至无需购买任何书籍！

官方镜像

官方镜像地址：https://hub.docker.com/_/python

注意，请认准官方镜像：

Docker最全教程之Python爬网实战(二十一)

使用Python抓取博客列表

需求说明

本篇使用Python来抓取我的博客园的博客列表，打印出标题、链接、日期和摘要。

博客地址：http://www.cnblogs.com/codelove/

内容如下所示：

Docker最全教程之Python爬网实战(二十一)

了解Beautiful Soup

Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库，支持多种解析器。Beautiful Soup简单的说，就是一个灵活又方便的网页解析库，是一个爬网利器。本篇教程我们就基于Beautiful Soup来抓取博客数据。

Beautiful Soup官方网站：https://beautifulsoup.readthedocs.io

主要解析器说明：

Docker最全教程之Python爬网实战(二十一)

分析并获取抓取规则

首先我们使用Chrome浏览器打开以下地址：http://www.cnblogs.com/codelove/

然后按下F12打开开发人员工具，通过工具我们梳理了以下规则：

博客块（div.day）

Docker最全教程之Python爬网实战(二十一)

博客标题(div. postTitle a)

Docker最全教程之Python爬网实战(二十一)

其他内容获取，如日期、博客链接、简介，这里我们就不截图了。

然后我们通过观察博客路径，获取到url分页规律：

Docker最全教程之Python爬网实战(二十一)

根据以上分析，我们胸有成竹，开始编码。

编写代码实现抓取逻辑

在编码前，请阅读BeautifulSoup官方文档。然后根据需求，我们编写Python的代码如下所示：

# 关于BeautifulSoup，请阅读官方文档：https://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/#id52

from bs4 import BeautifulSoup

import os

import sys

import requests

import time

import re

url = "https://www.cnblogs.com/codelove/default.html?page={page}"

#已完成的页数序号，初时为0

page = 0

while True:

    page += 1

    request_url = url.format(page=page)

    response = requests.get(request_url)

    #使用BeautifulSoup的html5lib解析器解析HTML（兼容性最好）

    html = BeautifulSoup(response.text,'html5lib')

    #获取当前HTML的所有的博客元素

    blog_list = html.select(".forFlow .day")

    # 循环在读不到新的博客时结束

    if not blog_list:

        break

    print("fetch: ", request_url)

    for blog in blog_list:

        # 获取标题

        title = blog.select(".postTitle a")[0].string

        print('--------------------------'+title+'--------------------------');

        # 获取博客链接

        blog_url = blog.select(".postTitle a")[0]["href"]

        print(blog_url);

        # 获取博客日期

        date = blog.select(".dayTitle a")[0].get_text()

        print(date)

        # 获取博客简介

        des = blog.select(".postCon > div")[0].get_text()

        print(des)

        print('-------------------------------------------------------------------------------------');

如上述代码所示，我们根据分析的规则循环翻页并且从每一页的HTML中抽取出了我们需要的博客信息，并打印出来，相关代码已提供注释，这里我们就不多说了。

编写Dockerfile

代码写完，按照惯例，我们仍然是使用Docker实现本地无SDK开发，因此编写Dockerfile如下所示：

# 使用官方镜像

FROM python:3.7-slim

# 设置工作目录

WORKDIR /app

# 复制当前目录

COPY . /app

# 安装模块

RUN pip install --trusted-host pypi.python.org -r requirements.txt

# Run app.py when the container launches

CMD ["python", "app.py"]

注意，由于我们使用到了比如beautifulsoup等第三方库，因此我们需要安装相关模块。requirements.txt内容如下所示（注意换行）：

html5lib

beautifulsoup4

requests

运行并查看抓取结果

构建完成后，我们运行起来结果如下所示：

Docker最全教程之Python爬网实战(二十一)

Docker最全教程之Python爬网实战(二十一)的更多相关文章

Docker最全教程之MySQL容器化（二十四）
前言 MySQL是目前最流行的开源的关系型数据库,MySQL的容器化之前有朋友投稿并且写过此块,本篇仅从笔者角度进行总结和编写. 目录镜像说明运行MySQL容器镜像 1.运行MySQL容器 ...
Docker最全教程之Go实战，墙裂推荐（十八）
前言与其他语言相比,Go非常值得推荐和学习,真香!为什么?主要是可以直接编译成机器代码(性能优越,体积非常小,可达10来M,见实践教程图片)而且设计良好,上手门槛低.本篇主要侧重于讲解了Go语言的优 ...
Docker最全教程之Ubuntu下安装Docker（十四）
前言 Ubuntu是一个以桌面应用为主的开源GNU/Linux操作系统,应用很广.本篇主要讲述Ubuntu下使用SSH远程登录并安装Docker,并且提供了Docker安装的两种方式,希望对大家有所帮 ...
Python爬网获取全国各地律师电话号
[本文出自天外归云的博客园] 从64365网站获取全国各地律师电话号,用到了python的lxml库进行对html页面内容的解析,对于xpath的获取和正确性校验,需要在火狐浏览器安装firebug和 ...
Python爬网——获取安卓手机统计数据
[本文出自天外归云的博客园] 1. 在安卓网上对热门机型进行爬网,取前五十: # -*- coding: utf-8 -*- import requests,re from bs4 import Be ...
学习廖雪峰的Python教程之Python基础
一.缩进编译器或者解释器就是负责把符合语法的程序代码转换成CPU能够执行的机器码,然后执行. 以#开头的语句是注释,注释是给人看的,可以是任意内容,解释器会忽略掉注释.其他每一行都是一个语句,当语句 ...
Docker最全教程——MongoDB容器化（十二）
MongoDB容器化 MongoDB是一个免费的.开源的.跨平台分布式面向文档存储的数据库,由C++语言编写.旨在为WEB应用提供可扩展的高性能数据存储解决方案. MongoDB是一个介于关系数据库和 ...
go语言开发教程之web项目开发实战
Golang介绍Go语言是谷歌推出的一种全新的编程语言,可以在不损失应用程序性能的情况下降低代码的复杂性.谷歌首席软件工程师罗布派克(Rob Pike)说:我们之所以开发Go,是因为过去10多年间软件 ...
Web攻防系列教程之 Cookie注入攻防实战
摘要:随着网络安全技术的发展,SQL注入作为一种很流行的攻击方式被越来越多的人所知晓.很多网站也都对SQL注入做了防护,许多网站管理员的做法就是添加一个防注入程序.这时我们用常规的手段去探测网站的SQ ...

随机推荐

hdu 4329
problem:http://acm.hdu.edu.cn/showproblem.php?pid=4329 题意:模拟 a. p(r)= R'/i rel(r)=(1||0) R ...
mysql与oracle的日期/时间函数小结
前言本文的日期/时间全部格式化为”2016-01-01 01:01:01“形式: MONITOR_TIME为数据库表字段: 字符串与日期/时间相互转换函数 Oracle 日期/时间转字符串函数:to ...
Linux下安装tar&period;gz类型的jdk，并配置环境变量
近期因要学习一门技术,必须在Linux下运行,故开始学习如何使用Linux. 在安装jdk时出现了困难,环境变量配置不成功,花了一天时间才搞定,特分享出来,供大家参考. Linux下安装jdk,步骤如 ...
渣渣小本求职复习之路每天一博客系列——数据库基础（MySQL）（5）
前情回顾:昨天学习了MySQL中索引的设计与使用,还了解了一些常见的SQL注入攻击的手段以及防范方法,一般来说,在面试的时候如果不是要求比较高,基本就够用了. 今天碰见一个拿了TP-LINK的offe ...
mybatis框架demo first
SqlMapConfig.xml: <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE con ...
C&num;实现对mongoDB的简单增删查改
首先添加所需要驱动包(可通过nuget获得) using MongoDB.Bson;using MongoDB.Driver;using MongoDB.Driver.Builders; 一.设置配置 ...
xcode实用快捷键
command + R 快速编译并运行项目 command + . 停止正在运行的项目 command + shift + O 快速打开xcode文件搜索功能 command + 0 关闭左边的侧边栏 ...
5分钟搞定iOS抓包Charles，让数据一清二楚
Charles安装 HTTP抓包 HTTPS抓包 1. Charles安装官网下载安装Charles:https://www.charlesproxy.com/download/ 2. HTTP ...
location和location&period;href跳转url的区别
使用 location = url 跳转,如果本地之前已经载入过该页面并有缓存,那么会直接读取本地的缓存,缓存机制是由本地浏览器设置决定的.状态码为: 200 OK (from cache) . ...
VMware 虚拟机运行卡慢的解决办法
虚拟机的运行速度有一部分原因决定于你的物理机的配置,如果你的物理机配置不高,建议不要运行虚拟机,那样反而会更卡! 切记!!!在操作之前,先给虚拟机拍摄一个快照,然后所有操作都在虚拟机关机的情况下执行! ...