C# 打开一篇网页新闻,能够自动分析出该新闻中的标题,作者,时间,内容等元数据。有哪位高手能提供一个思路,针对不同的网站。
Help,Help
9 个解决方案
#1
那得看这个网页是如何设计的,文章的格式是否有规律。比如可以寻找页面代码里的<Artikel Author="", Title="">,<Content>标签什么的。
如果文章版面毫无规律可言,那还真是“史上超难的问题”。
如果文章版面毫无规律可言,那还真是“史上超难的问题”。
#2
如果是不同的网站,肯定要用到机器学习算法。不过其实也不一定,第一行是标题 下面一行短的是作者 及 单位,简单的用正则表达式匹配一下就行。
#3
长见识了。楼主还要继续努力。
#4
别怎么就说最难问题,你的问题只要语言精通点的就能搞定好么
#5
#6
多看
#7
一位不结贴的提问者 拒绝回答问题
#8
长度不一样
#9
首先用程序抓取到所有的内容,然后剔除掉网页的标签,剩下的就是匹配标题,作者和内容了
#1
那得看这个网页是如何设计的,文章的格式是否有规律。比如可以寻找页面代码里的<Artikel Author="", Title="">,<Content>标签什么的。
如果文章版面毫无规律可言,那还真是“史上超难的问题”。
如果文章版面毫无规律可言,那还真是“史上超难的问题”。
#2
如果是不同的网站,肯定要用到机器学习算法。不过其实也不一定,第一行是标题 下面一行短的是作者 及 单位,简单的用正则表达式匹配一下就行。
#3
长见识了。楼主还要继续努力。
#4
别怎么就说最难问题,你的问题只要语言精通点的就能搞定好么
#5
#6
多看
#7
一位不结贴的提问者 拒绝回答问题
#8
长度不一样
#9
首先用程序抓取到所有的内容,然后剔除掉网页的标签,剩下的就是匹配标题,作者和内容了