文件名称:Category-Prediction
文件大小:1.14MB
文件格式:ZIP
更新时间:2024-04-30 19:03:17
JupyterNotebook
类别预测 数据的预处理和可视化 说明已清理,删除了无用的符号和字符 主要类别是从产品类别树中提取的 提取主要类别后,获得了266个具有非常不均匀分布的独特类别。 出于培训目的,没有。 类别减少。 它是通过以下方式完成的: 一种。 仅保留样本数量超过100的那些类别。这总共给出了18个类别,并且分布如图所示。 b。 仅保留样本数量超过10的那些类别。这总共给出了27个类别,并且分布如图所示。 为了使数据平衡,采用了过采样技术,下面还将讨论其结果。 获得Tf-IDF矩阵作为ML模型的清洗数据。 文本被标记化并转换为高维词嵌入,以输入到DL模型中。 方法 ML模型:以下机器学习模型与Tf-IDF形式的输入一起使用。 朴素贝叶斯 支持向量机 逻辑回归 CNN:CNN由于其捕获空间模式的能力而成为广泛使用的网络之一。 在NLP中,CNN能够很好地在数据中查找n-gram。 我使用词嵌入
【文件预览】:
Category-Prediction-main
----category_prediction_with_18_category_using_char_CNN.ipynb(106KB)
----category_prediction_with_18_category_using_ML_models.ipynb(63KB)
----requirements.txt(170B)
----category_prediction_with_18_category_using_bert_model.ipynb(309KB)
----category_prediction_with_18_category_using_over_sampling.ipynb(207KB)
----README.md(12KB)
----category_prediction_with_18_category_using_capsulenet.ipynb(86KB)
----category_prediction_with_18_category_using_attention_models.ipynb(326KB)
----IMAGES()
--------LANG_18.PNG(11KB)
--------ATT_18.PNG(21KB)
--------data_27.PNG(17KB)
--------RNNCNN_18.PNG(13KB)
--------RNNCNN_27.PNG(9KB)
--------ML.PNG(12KB)
--------RNNCNN_27_OS.PNG(9KB)
--------BERT_CONF.PNG(79KB)
--------MACNN.PNG(9KB)
--------BERT_ROC.png(16KB)
--------VDCNN.PNG(15KB)
--------RNNCNN_18_OS.PNG(9KB)
--------266_data.PNG(21KB)
--------18_data.PNG(28KB)
--------CAPSNET.PNG(5KB)
----category_prediction_with_27_Category_using_CNN_RNN.ipynb(228KB)
----category_prediction_with_18_category_using_RNN_CNN_based_models.ipynb(314KB)
----category_prediction_with_27_Category_using_OVER_SAMPLING.ipynb(234KB)