史上超难的问题,网页新闻的自动分析算法

时间:2022-01-29 13:09:25
求助:
   
    C# 打开一篇网页新闻,能够自动分析出该新闻中的标题,作者,时间,内容等元数据。有哪位高手能提供一个思路,针对不同的网站。


    Help,Help

9 个解决方案

#1


那得看这个网页是如何设计的,文章的格式是否有规律。比如可以寻找页面代码里的<Artikel Author="", Title="">,<Content>标签什么的。

如果文章版面毫无规律可言,那还真是“史上超难的问题”。

#2


如果是不同的网站,肯定要用到机器学习算法。不过其实也不一定,第一行是标题  下面一行短的是作者 及 单位,简单的用正则表达式匹配一下就行。

#3


长见识了。楼主还要继续努力。

#4


别怎么就说最难问题,你的问题只要语言精通点的就能搞定好么

#5


该回复于2009-10-11 09:04:38被版主删除

#6


多看

#7


一位不结贴的提问者  拒绝回答问题

#8


长度不一样

#9


    首先用程序抓取到所有的内容,然后剔除掉网页的标签,剩下的就是匹配标题,作者和内容了

#1


那得看这个网页是如何设计的,文章的格式是否有规律。比如可以寻找页面代码里的<Artikel Author="", Title="">,<Content>标签什么的。

如果文章版面毫无规律可言,那还真是“史上超难的问题”。

#2


如果是不同的网站,肯定要用到机器学习算法。不过其实也不一定,第一行是标题  下面一行短的是作者 及 单位,简单的用正则表达式匹配一下就行。

#3


长见识了。楼主还要继续努力。

#4


别怎么就说最难问题,你的问题只要语言精通点的就能搞定好么

#5


该回复于2009-10-11 09:04:38被版主删除

#6


多看

#7


一位不结贴的提问者  拒绝回答问题

#8


长度不一样

#9


    首先用程序抓取到所有的内容,然后剔除掉网页的标签,剩下的就是匹配标题,作者和内容了