文件名称:nlp-common-phrases:(笔记
文件大小:215KB
文件格式:ZIP
更新时间:2024-06-07 10:31:18
Python
注意:这是一项正在进行中的工作,但绝不是完美的(至少,到目前为止)。 这是我开始的一个项目,该项目使用一小段文本生成两个成对的两个单词,这些单词在英语中很好地结合在一起。 考虑到我正在使用的文本语料库目前很小,它绝对不是常见短语的完整列表,但是如果您检查输出,则会看到一些有趣的结果,例如['goodness','oh'] ,[“携带”,“枪支”]等。 输出采用列表列表的形式,每个子列表都包含两个单词的短语中的单词。 对输出进行排序,以便最可能在一起的单词首先出现。 现在,我仅使用“语音”数据,稍后我将尝试包括“书面”数据,结果可能会更加有趣。 要运行该程序,请运行common_phrases.py文件。 请注意,显示输出可能需要几秒钟的时间。 现在的代码确实很凌乱,但是我会在某个时候清理它。
【文件预览】:
nlp-common-phrases-master
----spoken()
--------ReidSandra.txt(10KB)
--------sw2071-ms98-a-trans.txt(5KB)
--------RindnerBonnie.txt(2KB)
--------sw2078-ms98-a-trans.txt(12KB)
--------sw2015-ms98-a-trans.txt(7KB)
--------sw2025-ms98-a-trans.txt(7KB)
--------sw2014-ms98-a-trans.txt(4KB)
--------PolkMaria.txt(4KB)
--------NapierDianne.txt(12KB)
--------Day3PMSession.txt(118KB)
----common_phrases.py(13KB)
----README.md(1015B)
----written()
--------lw1.txt(4KB)
--------119CWL041.txt(2KB)
--------HistoryGreek.txt(18KB)
--------113CWL018.txt(1KB)
--------115CVL036.txt(2KB)
--------110CYL067.txt(3KB)
--------Article247_3500.txt(4KB)
--------A1.E2-NEW.txt(1KB)
--------Article247_328.txt(3KB)
--------Article247_66.txt(4KB)
--------115CVL037.txt(3KB)
--------118CWL050.txt(4KB)
--------116CUL032.txt(2KB)
--------110CYL072.txt(978B)
--------118CWL048.txt(2KB)
--------wsj_2465.txt(5KB)
--------ENRON-pearson-email-25jul02.txt(438B)
--------A1.E1-NEW.txt(1KB)
--------114CUL059.txt(2KB)
--------115CVL035.txt(2KB)
--------118CWL049.txt(2KB)
--------602CZL285.txt(2KB)
--------114CUL057.txt(2KB)
--------Article247_327.txt(5KB)
--------110CYL069.txt(4KB)
--------114CUL058.txt(2KB)
--------112C-L015.txt(2KB)
--------117CWL009.txt(2KB)
--------116CUL034.txt(5KB)
--------HistoryJerusalem.txt(18KB)
--------112C-L014.txt(2KB)
--------110CYL070.txt(1KB)
--------113CWL017.txt(2KB)
--------114CUL060.txt(3KB)
--------VOL15_3.txt(90KB)
--------117CWL008.txt(2KB)
--------chZ.txt(5KB)
--------enron-thread-159550.txt(2KB)
--------Article247_400.txt(4KB)
--------112C-L016.txt(1KB)
--------110CYL200.txt(3KB)
--------20000419_apw_eng-NEW.txt(1KB)
--------wsj_1640.mrg-NEW.txt(4KB)
--------ch5.txt(31KB)
--------chapter-10.txt(46KB)
--------110CYL071.txt(3KB)
--------20000415_apw_eng-NEW.txt(2KB)
--------112C-L012.txt(2KB)
--------20000410_nyt-NEW.txt(1KB)
--------116CUL033.txt(2KB)
--------112C-L013.txt(2KB)
--------pmed.0010029.txt(3KB)
--------20000424_nyt-NEW.txt(296B)
--------110CYL068.txt(3KB)
--------Article247_500.txt(5KB)