【文件属性】:
文件名称:Adult-Teenager-Classification-using-Deep-Learning
文件大小:4.45MB
文件格式:ZIP
更新时间:2021-03-16 02:35:05
JupyterNotebook
使用深度学习的青少年分类
问题陈述
通过使用具有不同矢量化器的各种模型,我想通过分析用户在不同子reddit中使用的词来确定模型是否可以准确预测用户的成熟度/年龄。 我将从每个subreddit,r / Teenagers和r / Adulting收集5,000行数据,并使用这些数据来训练我的朴素贝叶斯和KNN模型。 我的目的是确定在两个子Reddit中的任何一个中使用的关键字,创建停用词,并确定模型中的最佳超参数。
使用的内容和数据
笔记本(按顺序)
数据采集
Adulting_DataCollection.ipynb
Teens_DataCollection.ipynb
前处理Preprocessing.ipynb
造型
知识网络
朴素贝叶斯
工作流程
数据采集
使用PushShift API。
每个subreddit收集5,000个帖子。
数据清理和EDA
组合标题
【文件预览】:
Adult-Teenager-Classification-using-Deep-Learning-main
----Teenagers_DataCollection.ipynb(50KB)
----NaiveBayes.ipynb(143KB)
----KNN.ipynb(40KB)
----README.md(5KB)
----Adulting_DataCollection.ipynb(36KB)
----data()
--------merged_subreddits.csv(13.08MB)
--------teenagers_subreddit.csv(3.26MB)
--------adulting_subreddit.csv(5.55MB)
----Preprocessing.ipynb(1.37MB)