crunchbase-crawler:一个用于提取 Crunchbase 信息的 python 脚本

时间:2024-07-03 15:54:37
【文件属性】:

文件名称:crunchbase-crawler:一个用于提取 Crunchbase 信息的 python 脚本

文件大小:5KB

文件格式:ZIP

更新时间:2024-07-03 15:54:37

Python

Crunchbase 爬虫 一个 python 脚本,用于通过 . 所有逗号字符都被替换为||| (三重管道)以便转义 csv 文件中的数据。 应该修改变量user_key以便以正确的方式调用 Crunchbase 的 API。 此外,还可以使用变量starting_page配置爬虫的起始页,并使用order对结果进行order ,这允许在两个方向上横向数据集(从最新到最旧,反之亦然)。 初始设置 建议使用下一个配置开始运行脚本: user_key = starting_page = 0 order = 'ASC' 这将开始检索从最旧的修改项目到最新的信息。 由于 Crunchbase 中的数据集非常大(380000 个组织和计数),从头开始检索所有内容需要一段时间(考虑到 API 软上限)。 Crunchbase API 上限 每月 25000


【文件预览】:
crunchbase-crawler-master
----.gitignore(117B)
----images()
--------no-image.png(0B)
----README.md(2KB)
----file-proc.py(1KB)
----crunchbase-crawler.py(10KB)
----crunchbase.csv(293B)

网友评论