文件名称:scraperLinux:从网站上抓取电子邮件和电话号码
文件大小:5KB
文件格式:ZIP
更新时间:2024-07-19 15:45:45
Shell
乔什·威利斯 scraper.sh 是一个脚本,可以在网站或文件中搜索任何电子邮件和电话号码。 有一些标志可指示是否搜索电子邮件、电话号码或两者,以及是否搜索文件或网站。 由于网络爬虫是尝试访问站点并收集人类可读数据的机器人,因此它们依赖于格式。 也许我们可以将它们显示为看起来像文本的简单图像,而不是将电子邮件和电话号码显示为文本。 这应该会停止一个 webscraper。 此外,我们可以在显示带有电子邮件的页面之前使用验证码之类的东西。 它会阻止刮刀,但仍然可供人类使用。 尝试创建一种算法,该算法可以读取包含电子邮件地址等文本的图像并将其转换为文本。 我认为这样的事情是可能的,但可能很难实施。 像这样的技术也可以用来破解验证码。 我使用 stat 函数来计算上次访问文件的时间。 'stat -c %X $FILE'。 Stat 将显示上次访问和上次修改的时间。 %X 代表上次访问。
【文件预览】:
scraperLinux-master
----deletion_warning.sh(167B)
----test.txt(57B)
----scraper.sh(2KB)
----delete_unused_files.sh(119B)
----list_unused_files.sh(166B)
----time.txt(0B)
----emails.txt(27B)
----README.md(2KB)
----phonenumbers.txt(28B)
----crontab(997B)
----README.txt(2KB)
----accessed_in.sh(210B)