文件名称:go-htmldate:用于提取网页发布日期的 CLI 和 Go 包
文件大小:5.1MB
文件格式:ZIP
更新时间:2024-08-24 15:31:29
nlp metadata web-scraping HTML
Go-HtmlDate Go-HtmlDate 是一个 Go 包和命令行工具,用于提取网页的原始和更新发布日期。 这个包基于 ,一个由 的 Python 包。 这个包的结构是按照原始Python代码的结构排列的。 这样,两个库都应该提供相似的性能,并且可以轻松移植原始库的任何改进。 目录 特征 提取网页的原始或更新的发布日期; 实验:也提取原始或更新的发布时间(及其时区); 就像原来一样,Go-HtmlDate 有两种模式:快速和广泛。 区别在于: 在快速模式下,HTML 页面被清理并有针对性的精确模式; 在扩展模式下,Go-HtmlDate 还将收集所有可能的日期并使用消歧算法来确定要使用的最佳日期。 默认情况下,Go-HtmlDate 将在扩展模式下运行,通常没有理由使用快速模式。 这是因为与原来不同的是,在我们的 Go 端口中,fast 和extended 模式之间的提