文件名称:How-To-Prevent-Scraping:防止网站爬虫的终极指南
文件大小:24KB
文件格式:ZIP
更新时间:2024-03-26 08:17:47
防止网页抓取的指南 (或者至少使它更难) 注:这是我的堆栈溢出的答案的扩展版本,我把它放在这里在GitHub上,因为它太长了SO(30K字是最大,这是超过40K个字符)。 随意修改,混音和共享-该文件已获得许可。 从本质上讲,阻止抓取意味着您需要使脚本和计算机难以从网站上获取所需数据,而对真正的用户和搜索引擎则不那么困难。 不幸的是,这很困难,您将需要在防止抓取和降低真实用户和搜索引擎的可访问性之间做出权衡。 为了阻止抓取(也称为Web抓取,屏幕抓取, Web数据挖掘, Web收获或Web数据提取),它有助于了解这些抓取工具的工作原理以及阻止它们正常工作的原因,这就是这个答案关于。 通常,编写这些刮板程序是为了从您的站点中提取特定信息,例如文章,搜索结果,产品详细信息,或者在您情况下是艺术家和专辑信息。 通常,人们会刮擦网站以获取特定数据,以便在自己的网站上重复使用(并从您的内容
【文件预览】:
How-To-Prevent-Scraping-master
----README_zh.md(30KB)
----README.md(33KB)