weebly-page-parser：使用jsoup的Weebly页面的常规解析器下载

【文件属性】：

文件名称：weebly-page-parser：使用jsoup的Weebly页面的常规解析器

文件大小：4KB

文件格式：ZIP

更新时间：2024-03-04 13:53:18

Java

weebly页面解析器使用从未发布的Weebly页面提取内容的通用过程和解析器。为什么？我们遇到了这样一种情况，我们有两个使用Web托管平台Weebly（，）制作的网页，这些网页需要未发布，审阅，内部存档以及可能被删除。我们没有找到一种简单的方法来使用Weebly或其他工具保存未发布站点的本地副本。此过程和代码为未发布页面的半自动内容提取提供了基础。它能做什么照原样，此工具从每个页面提取4种文本：类博客内容的标题，段落文本内容，外部链接和嵌入式YouTube链接。标题–网站上的某些页面像博客一样设置，因为在不同的日期都有大量独立的帖子撰写和发布。每个帖子的名称将显示在“标题”部分。博客文章的文本将在下一部分中，并且都应以相同的顺序进行，因此很容易将标题和文章的文本进行匹配。段落内容–这应该是每个页面上显示的所有单词（博客标题，菜单等除外）。有时段落标题

立即下载

【文件预览】：
weebly-page-parser-master
----parser.java(4KB)
----README.md(6KB)

秒客网

weebly-page-parser：使用jsoup的Weebly页面的常规解析器

网友评论

相关文章