文件名称:语言分类
文件大小:2.07MB
文件格式:ZIP
更新时间:2024-03-23 21:41:44
JupyterNotebook
顶点:语言分类 卢克·赫林加 数据科学沉浸式遥控器(DSIR-113020) 2021年3月4日 问题陈述 执行摘要 该项目的范围旨在涵盖Web API的使用,自然语言处理(NLP)以及分类模型的比较。 首先,使用Pushshift reddit API从子Reddit r / Coffee和r / tea收集5000个帖子。 清洗后,将剩余的4607个帖子标题和相关的subreddit标签分为一个训练集(数据的75%)和一个测试集(数据的25%)。 然后对多种NLP技术和分类模型进行了测试,以找到最能准确分类尚未发现标题的整体模型设置。 最终选择的模型包含一个CountVectorizer,该CountVectorizer通过计算每个帖子标题中出现的1个和2个单词标记(最少包含2个帖子标题),将其转换为数字数据。 通过WordNet词形化来形成令牌,以标准化词缀并删除不相关的“停用词
【文件预览】:
language_classification-master
----.gitignore(2KB)
----requirements.txt(7KB)
----code()
--------10_gru_model.ipynb(77KB)
--------02_everytongue_scraping.ipynb(5KB)
--------05_mfcc_processing.ipynb(6KB)
--------04_audio_processing.ipynb(7KB)
--------08_mfcc_EDA.ipynb(764KB)
--------01_audiolingua_scraping.ipynb(7KB)
--------07_age_and_gender.ipynb(38KB)
--------03_voxforge_scraping.ipynb(64KB)
--------06_cv_processing.ipynb(11KB)
--------09_dense_model.ipynb(81KB)
----models()
--------gru_model_split552.h5(1.58MB)
----README.md(5KB)
----streamlit()
--------classification_app.py(1KB)