python中的Polars库
什么是polars
Polars 是一个用于数据处理的 Python 库,提供了类似于 Pandas 的 API,但却更加快速和内存高效。
Polars 能够处理非常大的数据集,并在运行时对其进行快速操作。它具有类似 Pandas 的 API,可以进行诸如筛选、聚合和转换等常见操作。此外,Polars 还提供了一个更加直观和易于使用的 API,可以让你轻松地使用一些复杂的数据处理技术。
常用函数
1.read_csv()
read_csv() 函数用于从 CSV 文件中读取数据,并返回一个 DataFrame 对象。该函数可以接受多种参数,例如文件路径、列分隔符、行分隔符等。
示例代码:
import polars as pl
df = pl.read_csv('')
2.head()
head() 函数用于返回 DataFrame 中的前 n 行数据,默认为 5 行。
示例代码:
import polars as pl
df = pl.read_csv('')
print(df.head())
3.filter()
filter() 函数用于根据指定的条件筛选 DataFrame 中的行数据。
示例代码:
import polars as pl
df = pl.read_csv('')
filtered_df = df.filter(pl.col('age') > 18)#找age大于18的数据
print(filtered_df)
4.select()
select() 函数用于选择 DataFrame 中的列数据。
示例代码:
import polars as pl
df = pl.read_csv('')
selected_df = df.select(['name', 'age'])#返回列名为name和age的列数据
print(selected_df)
5.groupby()
groupby() 函数用于对 DataFrame 中的数据进行分组,并对分组后的数据进行聚合操作。
示例代码:
import polars as pl
df = pl.read_csv('')
grouped_df = df.groupby('gender').agg({'age': ['min', 'max', 'mean'], 'salary': 'sum'})
print(grouped_df)
.agg() 是 Polars 库中用于对 DataFrame 进行聚合操作的函数。它可以接受一个字典参数,用于指定要聚合的列以及要使用的聚合函数。
-
join()
join() 函数用于将两个 DataFrame 中的数据根据指定的列进行连接操作。
示例代码:
import polars as pl
df1 = pl.read_csv('')
df2 = pl.read_csv('')
joined_df = df1.join(df2, on='id')
print(joined_df)
7.sort()
sort() 函数用于根据指定的列对 DataFrame 中的数据进行排序操作。
示例代码:
import polars as pl
df = pl.read_csv('')
sorted_df = df.sort(by='age')
print(sorted_df)
8.fill_null()
fill_null() 函数用于将 DataFrame 中的空值填充为指定的值。
示例代码:
import polars as pl
df = pl.read_csv('')
filled_df = df.fill_null(0)#用0填充空值
print(filled_df)
9.describe()
describe() 函数用于生成 DataFrame 中的数值列的描述性统计信息,包括计数、平均数、标准差、最小值、最大值等。
示例代码:
import polars as pl
df = pl.read_csv('')
description = df.describe()
print(description)
10.
是 Polars 库中用于创建 DataFrame 对象的类。DataFrame 是一种二维表格数据结构,其中每一列可以是不同的数据类型,类似于 Excel 表格或者 SQL 中的数据表。
示例代码:
import polars as pl
data = {
'name': ['Alice', 'Bob', 'Charlie'],
'age': [20, 30, 25],
'gender': ['F', 'M', 'M']
}
df = pl.DataFrame(data)
print(df)
在上面的示例代码中,我们首先定义了一个字典 data,其中包含了三个键值对,分别表示 name、age 和 gender 三列数据。接着,我们使用 类创建了一个 DataFrame 对象 df,将 data 作为构造函数的参数传入。最后,我们打印输出了 df 对象的值。
11..col
.col 是 Polars 库中用于选择 DataFrame 中的一列数据的方法,它返回一个 Series 对象。在 Polars 中,DataFrame 对象由多个 Series 对象组成,每个 Series 对象表示一列数据。
示例代码:
import polars as pl
df = pl.DataFrame({
'name': ['Alice', 'Bob', 'Charlie'],
'age': [20, 30, 25],
'gender': ['F', 'M', 'M']
})
age_col = df.col('age')
print(age_col)
在上面的示例代码中,我们首先创建了一个 DataFrame 对象,然后使用 col() 方法选择了 age 列数据,将其赋值给 age_col 变量。最后,我们打印输出了 age_col 变量的值,它是一个 Series 对象,表示 age 列数据。
使用 col() 方法可以方便地选择 DataFrame 中的一列数据,并对其进行操作,例如计算该列的平均值、最大值等等。同时,也可以对多列数据使用 select() 方法选择多列,然后对多列进行操作。