文件名称:社交媒体平台中的白话差异:使用NLP模型BERT和LSTM来检测不同社交媒体平台上对话中的白话差异
文件大小:4.03MB
文件格式:ZIP
更新时间:2024-03-05 12:56:37
JupyterNotebook
信用 该存储库由ThilinaRajapakse派生而来,后者使用了HuggingFace PyTorch-Transformers库来使用UC Berkeley的信息与数据科学硕士计划。 特别是,该存储库将用于展示JJ Sahabu和George Tao在其W266 Final Project中的工作。 目的 该项目具有二进制文本分类功能,用于区分Twitter和Facebook数据。 该项目的目的是展示RoBERTa的简单用法,并将其与LSTM进行比较,并提供朴素的基线模型,以充分了解最新的自然语言处理模型的改进。 为了进行二进制文本分类,我们使用预处理的社交媒体文本数据微调了多个模型。 以下部分由ThilinaRajapakse撰写 高温高压变压器分类 该存储库基于库。 它是任何希望在文本分类任务中使用Transformer模型的人的起点。 请参阅此以获取有关该项目如何工作的更多信
【文件预览】:
Vernacular-Differences-in-Social-Media-Platforms-main
----RoBERTa Model()
--------run_model.ipynb(20KB)
--------data_prep.ipynb(2KB)
--------args.json(694B)
--------outputs()
--------data()
--------data_download.sh(216B)
--------utils.py(10KB)
--------colab_quickstart.ipynb(45KB)
----LICENSE(11KB)
----LSTM & Naive Model()
--------short_train.csv(3.4MB)
--------Naive Model.ipynb(49KB)
--------LSTM Training and Evaluation.ipynb(12KB)
--------short_test.csv(859KB)
----README.md(10KB)
----Cleaning Facebook Data.ipynb(44KB)
----Cleaning Twitter Data.ipynb(30KB)
----Final Paper.pdf(167KB)