文件名称:blog-page-archiver
文件大小:2.72MB
文件格式:ZIP
更新时间:2024-05-07 19:49:49
Python
博客页面存档器 扫描Markdown文件中的链接,并通过下载将其存档。 去做 输入 已修改的文件名列表 存储库(用于自己打开文件) 输出 S3链接到存档的网页? 步骤(作为Github工作流程运行) 检出存储库(用于访问降价文件)。 由于它需要在发布之前访问文件,因此即使它很大,它也必须作为CI运行,在这种情况下,这意味着需要执行Github Action。 读取黑名单 将文件名转换为实际文件 扫描每个页面(markdown)以获取外部链接 ...没有列入黑名单 ...尚未在页面上找到(重复项) ...并且不在dynamo DB表中 下载每个页面,如果其中一个失败,则构建失败 ...到S3 ...还有WARC格式? 形成“本地备份”(在S3上) 返回S3资源标识符 使用来更新DynamoDB ...外部URL到S3 URL的映射,页面和上次爬网时间(?) 页面(不是URL,