women-clothing

时间:2024-05-26 02:26:55
【文件属性】:

文件名称:women-clothing

文件大小:5.2MB

文件格式:ZIP

更新时间:2024-05-26 02:26:55

nlp topic-modeling retail lda HTML

主题建模客户对女装的文字评论 客户对产品有什么抱怨? 概述 该项目旨在从客户的文本评论中提取含义,以识别客户对特定产品不满意的问题。 零售商可以利用这些见解来优先解决最常抱怨的问题。 该模型会为每个负面评论文本(与分析中的负面评论文本定义为低于3且等级为5的低评分文本)生成与发布时段相对应的概率权重图。 出于从模型中提取问题k个桶,每个文本将被分配具有最高的概率权的问题。 我运行2种最常用的主题建模算法,然后选择“潜在狄利克雷分配(LDA)”作为此分析的最佳质量模型。 最终,验证非监督模型非常困难,尤其是在NLP中。 当前对话题质量的评估在很大程度上取决于专家的追求,即涉及人眼验证。 根据人工阅读和验证,该模型在概率权重的90%百分位数上达到了57%的准确度和77%的准确度。 该性能的提高归因于该模型无法“理解”不同客户的讽刺意味和不同语言表达风格,以及该数据集的狭窄主题,因此很难避免


【文件预览】:
women-clothing-master
----data_preprocessing.ipynb(10KB)
----pickle()
--------clean_df.pkl(6.29MB)
----.DS_Store(6KB)
----women_clothing_data_exploration.ipynb(789KB)
----visualization()
--------wc_pos_vs_neg_title.png(140KB)
--------venn_diagram.png(20KB)
--------lda_pyLDAvis.html(235KB)
--------wordcloud_class_last9.png(54KB)
--------choose_product.png(33KB)
--------rating_stats_by_class_dept.html(3.17MB)
--------joyplot_rating_class.png(67KB)
--------topic_percentage.png(33KB)
--------.DS_Store(6KB)
--------rating_statistics_by_class_dept.png(51KB)
--------ft1.jpg(131KB)
--------word_cloud_pos_vs_neg.png(118KB)
--------count_word_per_doc.png(23KB)
--------lda_pyLDAvis_211220.html(100KB)
--------top_words.png(37KB)
--------wc_pos_vs_neg.png(145KB)
--------wordcloud_class_first9.png(53KB)
--------topic_by_class_name.png(55KB)
----README.md(14KB)
----sample.xlsx(21KB)
----model_application.ipynb(315KB)
----LDA_modelling.ipynb(722KB)
----LSA_modelling.ipynb(274KB)
----.gitattributes(66B)

网友评论