pandora:XPRIZE大流行应对挑战的数据准备管道

时间:2024-02-28 16:46:05
【文件属性】:

文件名称:pandora:XPRIZE大流行应对挑战的数据准备管道

文件大小:2.48MB

文件格式:ZIP

更新时间:2024-02-28 16:46:05

machine-learning pandemic xprize covid-19 covid

日期准备管道 首先,加载的地理位置文件是国家和地区的列表。 数据集将扩展到时间范围。 加载了其他数据模块,每个数据模块执行以下步骤: 文件加载 过滤 时间扩展 添加了日期/时间字段 标有缺失值 归因于缺失值 过滤到时间范围 已验证 合并 从多个数据集派生的任何数据都必须在ML管道中执行。 这样可以隔离数据模块,并允许派生的功能利用超参数搜索的优势。 例如,如果我们有一个导出的特征是另一个特征的移动平均值,则可以将移动平均值的时间段定义为超参数,并在训练期间搜索最佳值。 ML管道 ... 数据模块参考 每个数据模块包括以下内容: 一个Python文件,其中包含每个字段的常量,数据集的位置以及用于缺失值插补的标准代码 包含实际数据集的文件; 支持的任何格式 一个可选的Python文件,可以更新其数据集,例如,通过从互联网下载最新数据或执行一些随时间变化的预处理。 该系统不会自动执行更新脚


【文件预览】:
pandora-master
----pandora()
--------encoders.py(5KB)
--------imputers.py(661B)
--------__init__.py(0B)
--------core_fields.py(811B)
--------loader.py(5KB)
--------imputer.py(1KB)
--------core_types.py(930B)
----requirements.txt(94B)
----setup.py(218B)
----README.md(5KB)
----data()
--------population.py(3KB)
--------country_code.csv(4KB)
--------continent.csv(3KB)
--------working_day.py(560B)
--------oxford_data.py(2KB)
--------working_day.csv(2.99MB)
--------oxford_data_update.py(2KB)
--------population.xlsx(27KB)
--------temperatures.py(982B)
--------geo.py(126B)
--------temperatures.csv(8.07MB)
--------geo.csv(1KB)
--------population.csv(15KB)
--------working_day_update.py(2KB)
--------age_distribution.py(1KB)
--------country_code.py(135B)
--------continent.py(157B)
--------oxford_data.csv(9.01MB)
--------age_distribution.csv(13KB)
----tests()
--------test_loader.py(4KB)
--------test_encoders.py(4KB)
--------test_pipeline.py(12KB)
----.gitignore(4B)

网友评论