文件名称:product-classification:Flipkart产品数据集上的产品分类
文件大小:6.21MB
文件格式:ZIP
更新时间:2024-05-01 20:51:25
JupyterNotebook
MIDAS @ IIITD 2021年夏季实习 我尝试参加MIDAS @ IIITD 2021年夏季实习计划的任务3(NLP)。 任务的目标是主要使用产品说明来预测产品的主要类别。 资料准备 标签 数据集不直接具有主要类别属性。 但是,它包含一个名为product_category_tree的属性,使用该属性可以提取主要类别。 我注意到有些产品没有分配给主要类别。 我将此类产品分组在一起,并删除了相应的行。 此外,数据集非常不平衡。 大约30%的产品属于“服装”类别,依此类推。 因此,我只按产品数量从小到大的顺序集中在前15个类别上。 由于缺少此类训练示例,因此添加更多类别将导致准确性下降。 另一方面,如果仅考虑前5个或前10个类别,则可以提高准确性。 描述 该描述已经过如下预处理: 删除所有非字母字符和多余的空格。 将字符串转换为小写。 从字符串中删除停用词。 我spa
【文件预览】:
product-classification-master
----preprocessed.csv(5.8MB)
----naive_bayes.ipynb(128KB)
----lstm.ipynb(78KB)
----bert.ipynb(52KB)
----requirements.txt(2KB)
----README.md(5KB)
----dataset.csv(36.37MB)
----.gitignore(36B)
----setup.sh(224B)