文件名称:Cleaning-Text-NLTK:手动和使用NLTK清洁文本
文件大小:25KB
文件格式:ZIP
更新时间:2024-03-03 20:58:20
nltk nltk-library text-cleaning datacleaning JupyterNotebook
清洗文本-NLTK 我们无法使用原始文本来拟合机器学习或深度学习模型。 我们需要首先清理文本,这意味着将其拆分为单词并处理标点和大小写。 实际上,我们可能需要使用一整套文本准备方法,而方法的选择实际上取决于我们的自然语言处理任务。 本笔记本包括以下部分: 如何通过开发自己的非常简单的文本清除工具来入门。 如何加强和使用NLTK库中更复杂的方法。 但是,在开始之前,我们先选择数据集。 在本笔记本中,我将使用贾勒勒·玛玛古杜扎德(Jalil Mammadguluzadeh)的文字,他是著名的阿塞拜疆作家,伟大的戏剧家和*人士。 该文件包括作者叙述的“ Kishmish oyunu”故事的一部分。
【文件预览】:
Cleaning-Text-NLTK-master
----kishmish.txt(23KB)
----nltk.ipynb(46KB)
----LICENSE(1KB)
----README.md(1KB)
----.gitignore(2KB)