掌握Pandas核心数据结构:Series与DataFrame的四种创建方式

时间:2024-12-03 11:22:45

掌握Pandas核心数据结构:Series与DataFrame的四种创建方式

Pandas 是 Python 中用于数据分析和处理的强大库,其核心数据结构包括 Series 和 DataFrame。本文将详细介绍这两种数据结构的四种常见创建方式,并通过示例进行说明。

1. 什么是 Series 和 DataFrame?
  • Series:一维数组,能够存储任何类型的数据(整数、字符串、浮点数等)。每个元素都有一个标签(索引)。
  • DataFrame:二维表格型数据结构,每列可以是不同的值类型(数值、字符串等),每一列都是一个 Series。
2. 创建 Series 的四种方式
2.1 从列表创建
import pandas as pd

# 从列表创建 Series
data = [1, 2, 3, 4, 5]
series_from_list = pd.Series(data)
print(series_from_list)

输出:

0    1
1    2
2    3
3    4
4    5
dtype: int64
2.2 从字典创建
# 从字典创建 Series
data_dict = {'a': 1, 'b': 2, 'c': 3}
series_from_dict = pd.Series(data_dict)
print(series_from_dict)

输出:

a    1
b    2
c    3
dtype: int64
2.3 从标量创建
# 从标量创建 Series
scalar_value = 5
index = ['a', 'b', 'c']
series_from_scalar = pd.Series(scalar_value, index=index)
print(series_from_scalar)

输出:

a    5
b    5
c    5
dtype: int64
2.4 从 NumPy 数组创建
import numpy as np

# 从 NumPy 数组创建 Series
np_array = np.array([1, 2, 3, 4, 5])
series_from_np_array = pd.Series(np_array)
print(series_from_np_array)

输出:

0    1
1    2
2    3
3    4
4    5
dtype: int64
3. 创建 DataFrame 的四种方式
3.1 从字典创建
# 从字典创建 DataFrame
data = {
    'Name': ['Alice', 'Bob', 'Charlie'],
    'Age': [25, 30, 35],
    'City': ['New York', 'Los Angeles', 'Chicago']
}
df_from_dict = pd.DataFrame(data)
print(df_from_dict)

输出:

      Name  Age         City
0    Alice   25     New York
1      Bob   30  Los Angeles
2  Charlie   35      Chicago
3.2 从列表的列表创建
# 从列表的列表创建 DataFrame
data = [
    ['Alice', 25, 'New York'],
    ['Bob', 30, 'Los Angeles'],
    ['Charlie', 35, 'Chicago']
]
columns = ['Name', 'Age', 'City']
df_from_list_of_lists = pd.DataFrame(data, columns=columns)
print(df_from_list_of_lists)

输出:

      Name  Age         City
0    Alice   25     New York
1      Bob   30  Los Angeles
2  Charlie   35      Chicago
3.3 从 NumPy 数组创建
# 从 NumPy 数组创建 DataFrame
np_array = np.array([
    ['Alice', 25, 'New York'],
    ['Bob', 30, 'Los Angeles'],
    ['Charlie', 35, 'Chicago']
])
columns = ['Name', 'Age', 'City']
df_from_np_array = pd.DataFrame(np_array, columns=columns)
print(df_from_np_array)

输出:

      Name  Age         City
0    Alice   25     New York
1      Bob   30  Los Angeles
2  Charlie   35      Chicago
3.4 从 Series 字典创建
# 从 Series 字典创建 DataFrame
name_series = pd.Series(['Alice', 'Bob', 'Charlie'], name='Name')
age_series = pd.Series([25, 30, 35], name='Age')
city_series = pd.Series(['New York', 'Los Angeles', 'Chicago'], name='City')

df_from_series_dict = pd.DataFrame({
    'Name': name_series,
    'Age': age_series,
    'City': city_series
})
print(df_from_series_dict)

输出:

      Name  Age         City
0    Alice   25     New York
1      Bob   30  Los Angeles
2  Charlie   35      Chicago
4. 总结

通过以上示例,我们可以看到 Pandas 提供了多种灵活的方式来创建 Series 和 DataFrame。根据具体需求选择合适的方法,可以大大提高数据处理的效率和代码的可读性。希望本文对您理解和使用 Pandas 的核心数据结构有所帮助!

如果您有任何问题或需要进一步的帮助,请随时留言讨论。祝您在数据分析的道路上越走越远!

欢迎点赞、关注、转发、收藏!!!