corpcrawl-dead:查看美国证券交易委员会 EDGAR 文件以消除公司和子公司关系

时间:2024-07-12 23:30:53
【文件属性】:

文件名称:corpcrawl-dead:查看美国证券交易委员会 EDGAR 文件以消除公司和子公司关系

文件大小:10KB

文件格式:ZIP

更新时间:2024-07-12 23:30:53

Python

这已经死了,见 rozap/corpcrawl 爬虫 关于 这是美国证券交易委员会 EDGAR 数据库的 Python 抓取工具。 它着眼于要求上市公司向美国证券交易委员会提交的 10k 表格文件。 然后尝试从 10k 展览 21.1 中提取附属关系。 Corpcrawl 是一个与存储无关的抓取工具,因此您需要实现自己的存储方案。 安装 您可以通过 Pip 从 PyPi 获取包。 pip 安装 corpcrawl 从 python 控制台你可以尝试 进口爬虫 如果它有效,那么你可以开始 运行它 首先导入需要的碎片 从 corpcrawl.crawler 导入 CorpCrawl 从 corpcrawl.backend 导入后端 定义主() my_backend = MyBackend() crawler = CorpCrawl(cache_path = '/an/absolute


【文件预览】:
corpcrawl-dead-master
----MANIFEST.in(74B)
----README.rst(2KB)
----requirements.txt(71B)
----setup.py(494B)
----corpcrawl()
--------backend.py(873B)
--------models()
--------parser.py(7KB)
--------__init__.py(0B)
--------util()
--------crawler.py(271B)
--------downloader.py(2KB)

网友评论