文件名称:datacompy:熊猫与Spark DataFrame的人类比较
文件大小:53KB
文件格式:ZIP
更新时间:2024-05-20 18:02:41
python data-science data spark pandas
数据通讯 DataComPy是一个用于比较两个Pandas DataFrame的程序包。 最初开始是SAS的PROC COMPARE for Pandas DataFrame的替代品,其功能不仅仅是Pandas.DataFrame.equals(Pandas.DataFrame) (因为它可以打印出一些统计信息,并让您调整必须精确匹配的数量) )。 然后扩展以将该功能传递给Spark Dataframes。 快速安装 pip install datacompy 熊猫细节 DataComPy将尝试在连接列列表或索引上连接两个数据框。 如果两个数据框具有基于联接值的重复项,则匹配过程将按其余字段排序,并根据该行号联接。 按列比较会尝试匹配值,即使dtypes不匹配也是如此。 因此,例如,如果您在一个数据帧中有一列具有decimal.Decimal值,而在另一个数据帧中具有一个decimal.
【文件预览】:
datacompy-develop
----datacompy()
--------_version.py(614B)
--------__init__.py(733B)
--------core.py(29KB)
--------templates()
--------sparkcompare.py(34KB)
----.gitignore(204B)
----setup.cfg(109B)
----README.rst(10KB)
----.github()
--------workflows()
----.pre-commit-config.yaml(255B)
----tests()
--------test_core.py(38KB)
--------test_sparkcompare.py(67KB)
----docs()
--------source()
--------.nojekyll(0B)
--------Makefile(875B)
----LICENSE(11KB)
----CODEOWNERS(35B)
----.whitesource(138B)
----requirements.txt(29B)
----MANIFEST.in(60B)
----CONTRIBUTORS(71B)
----setup.py(1KB)
----Makefile(274B)