文件名称:swan:Golang中Goose HTML Content Article Extractor算法的实现
文件大小:1.79MB
文件格式:ZIP
更新时间:2024-05-18 12:12:31
HTML
天鹅 Golang中Goose HTML Content / Article Extractor算法的实现。 通过Swan,您可以删除当今许多页面中所有多余的垃圾,从而从任何网页中提取清理后的文本和HTML内容。 请查看以获取完整用法和示例。 特征 几乎所有来源的主要内容提取 提取图像中HTML内容 获取文章元数据,发布日期等 识别不同的内容类型并应用特殊提取(当前仅识别漫画网站和普通网站) 计划 当在文章中找到视频时,将视频插入HTML内容 识别新闻来源并提取相应的视频/音频内容 识别并提取更多类型的内容 一个有趣的想法: :