文件名称:pouch:查找脚本 URL 与给定正则表达式匹配的网站
文件大小:8KB
文件格式:ZIP
更新时间:2024-07-03 02:08:01
Python
小袋 WTF是这个 Pouch 在 Internet 上查找具有与给定正则表达式模式匹配的 [removed] URL 的网站。 当您意识到有多少产品让用户嵌入脚本以及有多少用户在其网站上提供联系信息时,这可能很有价值。 如何 Pouch 使用的 WAT 爬取数据,大约每月更新一次。 实际扫描 WAT 存档文件以生成结果的 Bash 代码非常简单,可以在找到。 结果是包含匹配 [removed] 标签的网页的 URL。 当然,大规模执行此操作会变得更加复杂,这就是 Pouch 的用途。 grep -B7 ' "Scripts":.*"url":" ' $REGEXP ' " ' records.wat " | awk '/^WARC-Target-URI/ {print $2 }' Common Crawl 发布的 Crawl 档案被分成数千个 WAT 文件(它们也有其他格式,但 Pou
【文件预览】:
pouch-master
----pouch.py(6KB)
----LICENSE(1KB)
----config.ini(2KB)
----tools()
--------unique_domains.py(424B)
----scripts()
--------setup(716B)
--------matches(1KB)
----README.md(4KB)