利用Beautiful Soup和Pandas对抓取的数据进行清洗和处理

利用 BeautifulSoup 和 Pandas 对抓取的数据进行清洗和处理是一个非常常见的操作，尤其是在数据分析和网页数据爬取中。以下是一个完整的教程，介绍如何使用这两个库来抓取网页内容，并对数据进行清洗和处理。

一、安装依赖库

首先，你需要安装 beautifulsoup4 和 pandas，以及抓取网页所需要的 requests

pip install beautifulsoup4 pandas requests

二、使用 BeautifulSoup 抓取网页数据

BeautifulSoup 是一个用于从网页抓取数据并解析 HTML 或 XML 内容的库。我们将使用它从网页中提取数据。

假设我们要从一个新闻网站上抓取一些新闻标题和发布时间。

1. 使用 `BeautifulSoup` 抓取网页内容

import requests
from bs4 import BeautifulSoup

# 目标 URL
url = "https://example.com/news"  # 请替换为真实的新闻网页 URL

# 发送 GET 请求获取网页内容
response = requests.get(url)
soup = BeautifulSoup(response.content, "html.parser")

# 假设我们要抓取所有新闻标题和发布时间，网站的 HTML 结构如下
# <div class="news-item">
#     <h2 class="news-title">新闻标题</h2>
#     <span class="news-date">2025-02-01</span>
# </div>

# 提取所有新闻条目
news_items = soup.find_all('div', class_='news-item')

# 初始化空列表来保存抓取的数据
data = []

# 遍历每个新闻条目，提取标题和日期
for item in news_items:
    title = item.find('h2', class_='news-title').text.strip()  # 提取新闻标题
    date = item.find('span', class_='news-date').text.strip()  # 提取发布时间
    data.append([title, date])

# 输出抓取的数据
for row in data:
    print(row)

2. 将抓取的数据转为 DataFrame

接下来，我们使用 Pandas 将抓取的数据转化为 DataFrame 格式，以便后续清洗和处理。

import pandas as pd

# 将抓取的新闻数据转换为 DataFrame
df = pd.DataFrame(data, columns=["Title", "Date"])

# 显示前几行数据
print(df.head())

三、数据清洗和处理

一旦数据被提取并转换为 DataFrame，你可以使用 Pandas 提供的强大功能来清洗和处理数据。以下是一些常见的数据清洗操作：

1. 删除缺失值

有时候，抓取的数据中可能存在缺失值，你可以使用 dropna() 删除包含缺失值的行。

# 删除任何包含缺失值的行
df = df.dropna()

# 显示清洗后的数据
print(df.head())

2. 格式化日期

如果抓取的日期数据格式不统一，使用 Pandas 可以将日期列转换为标准的 datetime 格式：

# 将 Date 列转换为 datetime 格式
df['Date'] = pd.to_datetime(df['Date'], errors='coerce')

# 显示前几行数据
print(df.head())

errors='coerce' 会将无法转换的日期设置为 NaT（缺失值）。

3. 去除重复值

有时抓取的数据中可能包含重复的新闻条目，你可以使用 drop_duplicates() 去除重复的行。

# 去除重复的新闻条目
df = df.drop_duplicates()

# 显示清洗后的数据
print(df.head())

4. 去除额外的空格或特殊字符

抓取的数据中可能会包含不必要的空格或特殊字符。你可以使用 str.strip() 去除这些字符。

# 去除新闻标题和日期中的前后空格
df['Title'] = df['Title'].str.strip()
df['Date'] = df['Date'].str.strip()

# 显示清洗后的数据
print(df.head())

5. 过滤数据

假设你只想保留某一特定日期以后的新闻，可以使用 query() 或条件过滤。

# 只保留 2025 年 2 月 1 日以后的新闻
df = df[df['Date'] > '2025-02-01']

# 显示过滤后的数据
print(df.head())

6. 数据排序

你可以按照日期对数据进行排序，使得最早的新闻排在前面，或者最新的排在前面。

# 按照日期升序排序
df = df.sort_values(by='Date', ascending=True)

# 显示排序后的数据
print(df.head())

四、将清洗后的数据保存到文件

完成数据清洗后，你可以将数据保存到文件中，方便后续分析。常见的格式包括 CSV 和 Excel。

1. 保存为 CSV 文件

# 保存 DataFrame 到 CSV 文件
df.to_csv("cleaned_news.csv", index=False)

2. 保存为 Excel 文件

# 保存 DataFrame 到 Excel 文件
df.to_excel("cleaned_news.xlsx", index=False)

五、完整的示例代码

下面是一个完整的代码示例，展示了从网页抓取数据并进行清洗的全过程：

import requests
from bs4 import BeautifulSoup
import pandas as pd

# 目标 URL
url = "https://example.com/news"  # 请替换为真实的新闻网页 URL

# 发送 GET 请求获取网页内容
response = requests.get(url)
soup = BeautifulSoup(response.content, "html.parser")

# 提取所有新闻条目
news_items = soup.find_all('div', class_='news-item')

# 初始化空列表来保存抓取的数据
data = []

# 遍历每个新闻条目，提取标题和日期
for item in news_items:
    title = item.find('h2', class_='news-title').text.strip()
    date = item.find('span', class_='news-date').text.strip()
    data.append([title, date])

# 将抓取的新闻数据转换为 DataFrame
df = pd.DataFrame(data, columns=["Title", "Date"])

# 清洗数据
df = df.dropna()  # 删除缺失值
df['Date'] = pd.to_datetime(df['Date'], errors='coerce')  # 格式化日期
df = df.drop_duplicates()  # 去除重复值
df['Title'] = df['Title'].str.strip()  # 去除标题前后空格
df = df[df['Date'] > '2025-02-01']  # 只保留 2025-02-01 之后的新闻
df = df.sort_values(by='Date', ascending=True)  # 按照日期升序排序

# 保存清洗后的数据到 CSV 文件
df.to_csv("cleaned_news.csv", index=False)

# 输出清洗后的数据
print(df.head())

六、总结

BeautifulSoup 让我们能够从网页中提取数据，适用于静态网页的抓取。
Pandas 提供了强大的数据清洗和处理功能，可以方便地对抓取到的数据进行清洗、转换、排序、保存等操作。
通过将两者结合，能够实现高效的网页数据抓取、清洗和存储，生成适合分析的数据集。

秒客网

利用Beautiful Soup和Pandas对抓取的数据进行清洗和处理

一、安装依赖库

二、使用 BeautifulSoup 抓取网页数据

1. 使用 `BeautifulSoup` 抓取网页内容

2. 将抓取的数据转为 DataFrame

三、数据清洗和处理

1. 删除缺失值

2. 格式化日期

3. 去除重复值

4. 去除额外的空格或特殊字符

5. 过滤数据

6. 数据排序

四、将清洗后的数据保存到文件

1. 保存为 CSV 文件

2. 保存为 Excel 文件

五、完整的示例代码

六、总结

相关文章

利用Beautiful Soup和Pandas对抓取的数据进行清洗和处理

一、安装依赖库

二、使用 BeautifulSoup 抓取网页数据

1. 使用 BeautifulSoup 抓取网页内容

2. 将抓取的数据转为 DataFrame

三、数据清洗和处理

1. 删除缺失值

2. 格式化日期

3. 去除重复值

4. 去除额外的空格或特殊字符

5. 过滤数据

6. 数据排序

四、将清洗后的数据保存到文件

1. 保存为 CSV 文件

2. 保存为 Excel 文件

五、完整的示例代码

六、总结

相关文章

1. 使用 `BeautifulSoup` 抓取网页内容