Arguments:用于从联邦上诉法院的口头辩论中抓取和存储元数据的脚本

时间:2024-08-01 01:11:35
【文件属性】:

文件名称:Arguments:用于从联邦上诉法院的口头辩论中抓取和存储元数据的脚本

文件大小:14KB

文件格式:ZIP

更新时间:2024-08-01 01:11:35

Python

参数的作用 Arguments 是一个 Python 脚本,用于从联邦上诉法院抓取和存储口头辩论元数据。 该脚本目前收集有关第一、第三、第四、第五、第六、第七、第八、第九、DC 和联邦电路中的参数的数据。 它提取指向争论录音和案件信息的链接,包括标题、案卷编号、争论日期、媒体格式和其他相关细节。 (有些电路比其他电路提供更多细节。)它将数据存储在 MySQL 表中。 我将其用作的数据收集例程。 参数还可以将新条目共享到社交媒体。 我的实现将每个新录音发布到 。 刮擦遵循三个基本步骤: 首先,它抓取法院的网站或 RSS 提要,并从论点中提取基本元数据(案卷编号、案件标题、争论日期等),然后对数据进行标准化。 其次,它验证每个抓取的参数是否链接到一个有效的媒体文件——我们不希望出现 404 错误。 其次,如果您愿意,它会下载任何尚未成为 MP3 的媒体文件,将它们转换并发布到您的


【文件预览】:
Arguments-master
----arguments_convert.py(222B)
----arguments_courts.py(1KB)
----arguments.py(33KB)
----.gitignore(3KB)
----arguments_log.py(513B)
----README.md(3KB)
----.gitattributes(483B)
----arguments_settings.py(2KB)

网友评论