文件名称:google-ngrams-db:用于 Google N-gram 的 SQLite 数据库
文件大小:818.73MB
文件格式:ZIP
更新时间:2024-06-21 19:29:59
谷歌 N-grams 数据库 这个 repo 包含 Google N-grams English 百万作为 SQLite 数据库。 这些字段可用: 语法 年 匹配计数 页数 音量_计数 此数据基于 。 Google N-grams 是根据。 这些文件已通过仅采用完全由字母 AZ 组成的英语 100 万 1 克(例如,没有标点符号或数字,没有重音符号或非英文字符)进行了修改。 这些 ngram 已被放入 SQLite 数据库中,使这样的查询变得容易: -- get counts of matches by ngram for appearances after 1990 SELECT ngram, SUM (match_count) AS sum_match_count FROM eng_1m_ascii WHERE year > 1990 GROUP BY ngram; -- ge
【文件预览】:
google-ngrams-db-master
----.gitignore(82B)
----urls.txt(930B)
----output_eng_1m_ascii.sqlite.7z()
--------xaaaah(42.92MB)
--------xaaaai(42.92MB)
--------xaaaal(42.92MB)
--------xaaaan(42.92MB)
--------xaaaaa(42.92MB)
--------xaaaac(42.92MB)
--------xaaaak(42.92MB)
--------xaaaat(3.29MB)
--------xaaaae(42.92MB)
--------xaaaaj(42.92MB)
--------xaaaag(42.92MB)
--------xaaaaq(42.92MB)
--------xaaaaf(42.92MB)
--------xaaaas(42.92MB)
--------xaaaap(42.92MB)
--------xaaaao(42.92MB)
--------xaaaam(42.92MB)
--------xaaaad(42.92MB)
--------xaaaab(42.92MB)
--------xaaaar(42.92MB)
----total_matches_per_year.txt(5KB)
----.gitmodules(109B)
----README.md(2KB)
----img()
--------google_eng1m_relativefreq_1835-2008.png(43KB)