【文件属性】:
文件名称:Large-File-Processer
文件大小:3KB
文件格式:ZIP
更新时间:2021-03-27 15:44:12
Python
大文件处理器
这是使用pandas(dataframe)提取大文件过程的问题陈述,将其放入sql table(prod)中,计算名称的聚集并将其存储在另一个表(aggregated_data)中。
先决条件
pip安装sqlalchemy pip安装pymysql pip安装pandas Msql服务器
输入
在Config.py文件中提供输入:
用户=数据库用户密码=数据库密码主机=主机地址数据库=数据库名称
跑步
Python3(pwd)/main.py
表和架构
数据库:产品
表:产品(名称,SKU,说明)aggregated_data(计数,名称)
要点
遵循了oops的概念。
考虑扩展(使用数据帧处理数据)。
所有产品数据包都插入到一个表中。
创建了一个关于名称和产品编号的汇总表
改善范围
可以创建自动化过程以将数据加载到我们的表中(例如,每天将新文件加载到ftp服
【文件预览】:
Large-File-Processer-main
----main.py(706B)
----connect.py(689B)
----aggegrate.py(572B)
----config.py(47B)
----README.md(1KB)