weebly-page-parser:使用jsoup的Weebly页面的常规解析器

时间:2024-03-04 13:53:18
【文件属性】:

文件名称:weebly-page-parser:使用jsoup的Weebly页面的常规解析器

文件大小:4KB

文件格式:ZIP

更新时间:2024-03-04 13:53:18

Java

weebly页面解析器 使用从未发布的Weebly页面提取内容的通用过程和解析器。 为什么? 我们遇到了这样一种情况,我们有两个使用Web托管平台Weebly(, )制作的网页,这些网页需要未发布,审阅,内部存档以及可能被删除。 我们没有找到一种简单的方法来使用Weebly或其他工具保存未发布站点的本地副本。 此过程和代码为未发布页面的半自动内容提取提供了基础。 它能做什么 照原样,此工具从每个页面提取4种文本:类博客内容的标题,段落文本内容,外部链接和嵌入式YouTube链接。 标题–网​​站上的某些页面像博客一样设置,因为在不同的日期都有大量独立的帖子撰写和发布。 每个帖子的名称将显示在“标题”部分。 博客文章的文本将在下一部分中,并且都应以相同的顺序进行,因此很容易将标题和文章的文本进行匹配。 段落内容–这应该是每个页面上显示的所有单词(博客标题,菜单等除外)。 有时段落标题


【文件预览】:
weebly-page-parser-master
----parser.java(4KB)
----README.md(6KB)

网友评论