文件名称:siuba:Python库,用于将dplyr等语法用于熊猫和SQL
文件大小:461KB
文件格式:ZIP
更新时间:2024-02-20 09:26:26
python sql dplyr pandas data-analysis
西巴 零碎的数据分析,无缝支持熊猫和SQL siuba()是和其他R库的。 它支持以5种常见操作为中心的表格数据分析工作流: select() -保留某些数据列。 filter() -保留某些数据行。 mutate() -创建或修改现有的数据列。 summarize() -将一列或多列缩小为一个数字。 arrange() -重新排序数据行。 可以在group_by()执行这些操作,这会使它们分别应用于分组的数据行。 此外,实现了许多SQL概念,例如distinct() , count()和联接。 这些函数的输入可以是pandas DataFrame或SQL连接(当前为postgres, DataFrame或sqlite)。 有关dplyr之类的工具背后的原理的更多信息,请参见本。 有关运行中的siuba的示例,请参见。 安装 pip install siuba 例子 有关完整的介绍,请参见或此。 基本用途 下面的代码使用示例DataFrame mtcars来获取每个气缸的平均马力(hp)。 from siuba import group_by , summarize