文件名称:Product_Classification_IIITD
文件大小:514KB
文件格式:ZIP
更新时间:2024-04-30 11:46:07
JupyterNotebook
有监督学习的产品分类 简介因此,在这种情况下,我们必须使用监督学习方法进行多类文本分类,这是通常的二进制分类的较难版本,我们将根据提供的数据集将产品分类为一类。只是看一下数据集就可以找到一些方法,以便对它有更深入的了解,并且如果我们能够找到解决问题的方法,则可以尝试与现实生活中的场景建立更多的联系。所以,是的,让我们直接深入研究我的解决问题的方法方法,数据清洗和预处理对于该项目,我们只需要两列-类别和描述。我们的主要目标是预测产品的类别。我们将删除描述列中的缺失值,并添加一个编码对整数进行分类,因为分类变量(在这种情况下为category_id)通常比整数更好地表示为字符串,因此之后我们得到了如下数据集:- 现在的主要挑战之一是弄清我们使用简单的字符串处理任务的主要类别。因此,我根据product_category_tree列中'>'的出现来拆分字符串,然后从那里获取第一个元素,这确实
【文件预览】:
Product_Classification_IIITD-main
----product_classify_iiitd.ipynb(312KB)
----README.pdf(355KB)
----README.md(5KB)