blog-page-archiver下载

【文件属性】：

文件名称：blog-page-archiver

文件大小：2.72MB

文件格式：ZIP

更新时间：2024-05-07 19:49:49

Python

博客页面存档器扫描Markdown文件中的链接，并通过下载将其存档。去做输入已修改的文件名列表存储库（用于自己打开文件）输出 S3链接到存档的网页？步骤（作为Github工作流程运行）检出存储库（用于访问降价文件）。由于它需要在发布之前访问文件，因此即使它很大，它也必须作为CI运行，在这种情况下，这意味着需要执行Github Action。读取黑名单将文件名转换为实际文件扫描每个页面（markdown）以获取外部链接 ...没有列入黑名单 ...尚未在页面上找到（重复项） ...并且不在dynamo DB表中下载每个页面，如果其中一个失败，则构建失败 ...到S3 ...还有WARC格式？形成“本地备份”（在S3上）返回S3资源标识符使用来更新DynamoDB ...外部URL到S3 URL的映射，页面和上次爬网时间（？）页面（不是URL，

立即下载

秒客网

blog-page-archiver

网友评论