文件名称:regulations-scraper:对regulations.gov的公共评论的刮板
文件大小:120KB
文件格式:ZIP
更新时间:2024-06-11 13:23:37
Python
法规刮板 此回购包含刮板代码,用于维护上所有数据的完整副本(主要由联邦公报文件和公共意见组成),从所述文件中提取文本,并进行命名实体识别(使用 )和窃检测/聚类(使用 )。 此外,该项目还包括为美国证券交易委员会(SEC)和美国商品期货交易委员会(CFTC)等非参与机构提供的抓取工具,并将其内容纳入《 Regulations.gov》数据模型中。
【文件预览】:
regulations-scraper-master
----.gitignore(99B)
----README.md(625B)
----duplicates()
--------ngrams.py(1KB)
--------tests.py(14KB)
--------clustering.py(5KB)
--------__init__.py(0B)
--------db.py(2KB)
--------interactive.py(4KB)
--------cftc.py(2KB)
----regscrape()
--------regsdotgov()
--------sec_cftc()
--------settings.py(403B)
--------__init__.py(0B)
--------regs_common()
--------pipeline.py(3KB)
--------run.py(121B)
----Gemfile(63B)
----analysis()
--------export_dockets.py(1KB)
--------tests.py(718B)
--------__init__.py(0B)
--------export.py(7KB)
--------schema.sql(1KB)
----auto()
--------ssh_util.py(818B)
--------fabfile.py(5KB)
--------requirements.txt(23B)
----LICENSE(1KB)
----__init__.py(0B)
----requirements.txt(652B)
----one_offs()
--------pdf_repair()
--------lightsquared()
--------copy_agency()
--------dodd_frank()
----ec2()
--------install-deps.sh(726B)
--------run-x.sh(48B)
--------README(87B)
--------setup-env.sh(182B)