Simple-natural-language-processing:作业1

时间:2024-04-24 11:24:46
【文件属性】:

文件名称:Simple-natural-language-processing:作业1

文件大小:221KB

文件格式:ZIP

更新时间:2024-04-24 11:24:46

JupyterNotebook

简单自然的语言处理 作业1 一般将使用的数据集 数据科学是一个使用各种工具,流程,算法和机器学习原理从数据中获取知识和见解模式的领域。 流媒体服务是一项基于订阅的服务,可提供在线电影和电视节目的流媒体 新加坡的历史 标记化和词干 我们用于执行标记化和词干提取的库分别是来自NLTK的word_tokenize和PorterStemmer。 代币化 在标记化过程中,我们将对数据集中的所有文本执行标记化。 标记化很重要,因为在进行任何处理之前,需要将文本分成较小的单元,例如单词,标点,数字。 下表显示了特定于域的单词的不正确标记。 领域 意外令牌 预期代币 数据科学 '(''k−1'')''×''(''k−2'')' '(k-1)''×''(k-2)' 流媒体服务 “橡子”“电视” /“亚马逊”“视频” “橡子电视”-是美国订阅的视频流媒体服务“亚马逊视频”-是亚马逊拥有的美国互联网视


【文件预览】:
Simple-natural-language-processing-main
----domainDocument.xlsx(21KB)
----README.md(4KB)
----nlp.py(9KB)
----nlp-project.ipynb(418KB)
----.gitattributes(66B)

网友评论