文件名称:disaster_response_NLP_pipeline:用于灾难响应消息分类的NLP管道
文件大小:4.28MB
文件格式:ZIP
更新时间:2024-04-16 07:40:57
JupyterNotebook
灾害响应管道项目 概括 该项目使用自然语言处理(NLP)将来自新闻,社交媒体的自然灾害相关消息分类,并将直接报告分为36个非排他性类别。 ETL管道用于清理数据并将其存储在SQLite数据库中。 ML管道用于训练多输出(多标签)分类模型。 基于Flask的Web应用程序允许用户使用图8 / Udacity灾难响应消息训练数据集上预先训练的模型输入自定义消息进行分类。 方法 消息分类管道包括使用spacy NLP软件包对消息文本进行预处理,以使用语音词标记的正确部分生成归一化和词形化。 令牌被馈送到TF-IDF转换器,然后馈入机器学习分类器。 初始分类器模型(请参见下面的讨论)采用了非常简单的Complement Naive Bayees分类器方法,该方法因其在不平衡类中的首选用法而被选择,并包装在MultiOutputClassifier中用于多标签分类。 使用Hamming Loss
【文件预览】:
disaster_response_NLP_pipeline-master
----notebooks()
--------ETL Pipeline Preparation.ipynb(98KB)
--------ML Pipeline Preparation.ipynb(84KB)
--------Training Data Exploration.ipynb(206KB)
----models()
--------train_classifier.py(4KB)
----requirements.txt(1KB)
----README.md(6KB)
----data()
--------disaster_messages.csv(4.83MB)
--------DisasterResponse.db(5.18MB)
--------disaster_categories.csv(11.31MB)
--------process_data.py(5KB)
----resources()
--------main_page_crop.PNG(11KB)
----.gitignore(69B)
----app()
--------images()
--------run.py(7KB)
--------templates()