文件名称:StateoftheUnion:使用 SOTU 地址教授简单文本分析和网页抓取的存储库
文件大小:7KB
文件格式:ZIP
更新时间:2024-07-15 14:22:07
Python
抓取和分析国情咨文 该存储库提供了有关如何抓取 Web 文档、从中提取单词以及执行非常简单的分析的教学示例。 虽然示例非常简单并且可以使用现有的软件包来完成,但对于想要了解如何执行简单文本处理的研究人员来说,这个存储库是一个起点。 关键脚本是: scrape.py : 下载 SOTU 的文本 count.py :将文本处理为每个语音单个单词的计数 process_counts.py :将计数处理成 CSV 文件 analyze_counts.R : 分析计数 关于工会状态 (SOTU) 地址的一些说明: SOTU 于 1965 年首次在晚间电视上播出 从那时起,除吉米·卡特 1981 年的书面告别演说外,所有国情咨文都在电视直播中口头发表。 尼克松 1973 年的地址被分解为“一系列信息”而不是一个地址。
【文件预览】:
StateoftheUnion-master
----process_counts.py(4KB)
----count.py(2KB)
----analyze_counts.R(4KB)
----.gitignore(111B)
----README.md(1KB)
----scrape.py(3KB)
----scrape_and_count.sh(176B)