文件名称:wordfrequencies:使用电影和电视字幕计算单词的频率
文件大小:10KB
文件格式:ZIP
更新时间:2024-07-18 12:56:04
词频 一组计算英语单词使用频率的工具。 使用电影和电视中的字幕作为数据源。 原创创意:Brysbaert & New, 数据源 首先,您需要从下载 OpenSubtitles 英文数据。 Open Corpus 从获取数据。 如果您使用这些数据,请考虑支持该网站。 您可以从这里获取 XML 格式的 2012 标记化语料库文件: 警告:2012 en.tar.gz为 11 GB,已压缩。 下载数据后,解压缩其内容,即很多目录中的很多 .gz 文件。 在这些工具起作用之前,您需要解压缩您感兴趣的 xml 文件。 安装 从 GitHub 克隆: git clone git@github.com:WordsAPI/wordfrequencies.git 用法 去重.js 来自 Open Corpus 的数据被分解成这样的目录: OpenSubtitles2012/en/{year
【文件预览】:
wordfrequencies-master
----spellingFilter.js(3KB)
----cleaner.js(2KB)
----package.json(311B)
----counter.js(1KB)
----Readme.md(4KB)
----frequencyCounter.js(5KB)
----deduper.js(1KB)
----merger.js(1KB)
----.gitignore(577B)
----stats.js(1KB)