Midas_Summer-2021

时间:2021-04-10 23:04:16
【文件属性】:
文件名称:Midas_Summer-2021
文件大小:62KB
文件格式:ZIP
更新时间:2021-04-10 23:04:16
JupyterNotebook Midas_Summer-2021 链接到数据集: : 问题描述:您必须清除此数据,在产品类别树中将所有类别分开,找出主要类别,然后使用模型进行预测。 如果您想删除一些缺少数据的类别,您也可以随意这样做,并在说明和可视化方面进行提及。 目标:预测产品类别。 展示您将如何清理和处理数据:提供给我们的数据是一组产品描述,我们需要针对相同的产品类别进行预测。 给出的数据的基础是描述。 为了对机器可理解的格式进行给定的描述,我们的目标是通过删除停用词(如a,an,the,by等)来清理数据,这些停用词通常在我们的NLP模型中被解释为噪声,在这里我们也看到了最常见的价格,免费,货真价实的保证金与产品类别无关,因此会导致噪音增加,从而降低模型的准确性。 因此,我们首先确定了它们,然后将其从原始数据中删除。 下图显示了删除常规停用词后最频繁出现的单词的分布,其中多个对我们而言并没有太大用处
【文件预览】:
Midas_Summer-2021-main
----Assets()
--------Screenshot from 2021-04-10 20-25-42.png(33KB)
--------.gitignore(1B)
----MIDAS_Task-3.ipynb(15KB)
----Untitled.ipynb(194KB)
----README.md(2KB)

网友评论