文件名称:ce:Golang中HTML文章内容提取器
文件大小:101KB
文件格式:ZIP
更新时间:2024-05-27 02:45:53
information-extraction HTML
多语言网页内容提取器 介绍 ce是用于多语言网页内容提取的golang软件包。 它用于提取文章类型网页的内容,例如新闻,博客文章等。 基本用法 package main import ( "encoding/json" "flag" "fmt" "strings" "github.com/crawlerclub/ce" "github.com/crawlerclub/dl" ) var ( url = flag . String ( "url" , "http://china.huanqiu.com/article/2017-07/11034896.html" , "news url" ) debug = flag . Bool ( "debug" , false , "debug mode" ) ) func main () { flag . Parse ()
【文件预览】:
ce-master
----.gitignore(285B)
----meta_test.go(742B)
----re_test.go(1KB)
----content_test.go(411B)
----content_extractor.go(6KB)
----LICENSE(11KB)
----opengraph()
--------fb_open_graph.go(4KB)
----twitter()
--------twitter_card.go(3KB)
----methods.md(547B)
----extractor.go(6KB)
----README.md(1KB)
----util.go(564B)
----test_data()
--------huanqiu.html(49KB)
--------sina.html(110KB)
--------dailycaller.html(78KB)
--------cbsnews.html(110KB)
----meta_extractor.go(2KB)
----cmd()
--------main.go(580B)
----text_from_html.go(681B)