文件名称:拖网渔船:适用于facebook,gab,google和tiktok的刮板
文件大小:229KB
文件格式:ZIP
更新时间:2024-03-07 05:13:03
scraper datasources schedule-jobs JavaScript
拖网渔船 用于网络抓取(和其他)任务的作业计划程序和分析工具。 数据源 当前已实现以下数据源: Facebook帖子和React刮了Facebook帖子,评论和React(例如,心脏等) 用户的gab(纳粹twitter)爬虫帖子 google dorking找到有趣的文件并下载 基于masscan udp的端口扫描程序(需要docker ) onionlist从onionlist.org下载tor-catalogue tiktok获取每个主题标签的视频元数据,下载它们并使用easyOCR分析文本 网址通用http搜寻器 特征 动作/数据源的简单配置,也来自第三方模块/存储库 作业监控和调度 安排工作 sqlite,csv和json浏览器 数据集/工件的分离(每个爬网一个存档) 数量可扩展的工人(也在其他机器上) 建筑学 前端和API GUI创建和安排作业 显示待处理,正在运
【文件预览】:
trawler-main
----utils()
--------Fields.js(594B)
--------SQL.js(558B)
--------worker.js(7KB)
--------db.js(103B)
----.github()
--------workflows()
----public()
--------index.html(2KB)
--------favicon.ico(4KB)
----start.sh(32B)
----.gitmodules(192B)
----models()
--------Comment.js(242B)
--------Dataset.js(211B)
--------Post.js(218B)
--------Reaction.js(228B)
----.eslintrc.js(724B)
----src()
--------router()
--------main.js(272B)
--------views()
--------components()
--------App.vue(560B)
--------plugins()
--------assets()
--------data(7B)
----babel.config.js(73B)
----datasources()
--------onionlist()
--------mail()
--------motiondetection()
--------url()
--------masscan()
--------tiktok()
--------facebook_posts()
--------datasources.js(2KB)
--------gab()
--------json_to_csv()
--------google_dorkload()
----.prettierrc(93B)
----README.md(2KB)
----ecosystem.config.js(1KB)
----.env.template(421B)
----vue.config.js(67B)
----docs()
--------README.template.md(1KB)
--------build_docu.sh(501B)
----worker.js(101B)
----tests()
--------worker.test.js(2KB)
----.gitignore(239B)
----package-lock.json(701KB)
----api.js(5KB)
----package.json(2KB)