【文件属性】:
文件名称:jhucap:朱·卡普斯通
文件大小:1.34MB
文件格式:ZIP
更新时间:2021-05-15 18:59:53
HTML
顶石
JHU-数据产品专用项目
该项目使用R中的NLP(自然语言处理)基础知识来构建可预测给定句子下一个单词的应用程序。 资源链接是: 。 该项目的预测核心是在马尔可夫链规则(n-gram预测)和Katz退避模型的背景下进行的。 根据经验,三元组模型比二元组,单字组或更高的n元组模型更好的预测,因为它具有较低的困惑度。
项目程序:
-读取数据和基本分析
-将数据采样并粘贴到一个数据集中,进行语料库清洁
-探索性分析
-将1,2,3,4克传输到数据帧
-用unigram,bigram,trigram和quadgram创建预测模型
-平滑的n-gram模型,更加准确,快速,高效。(退后)
NLP资源的参考和链接:
1,
2,
3,
4,
5,R酒吧: :
【文件预览】:
jhucap-master
----www()
--------work.jpg(126KB)
--------Unigram.png(33KB)
--------swi.png(103KB)
--------log1.png(19KB)
--------smoothing.jpg(22KB)
--------katz.jpg(78KB)
--------log2.png(64KB)
----image()
--------wordcloud2.png(59KB)
----ui.R(10KB)
----report.Rmd(5KB)
----presentation.Rpres(2KB)
----html()
--------Capstone report.htm(1.55MB)
----server.R(4KB)
----s.jpg(66KB)
----README.md(1KB)
----model_wordcloud.R(10KB)
----final.R(5KB)
----model.R(9KB)
----presentation.md(2KB)