爬取的搜狐新闻数据

时间:2017-03-25 04:02:42
【文件属性】:

文件名称:爬取的搜狐新闻数据

文件大小:13.09MB

文件格式:RAR

更新时间:2017-03-25 04:02:42

搜狐新闻 爬取

爬取的搜狐新闻数据,一共有12个类别,分好类了


【文件预览】:
data
----20000_word.txt(63KB)
----80000_word.txt(72KB)
----10000.txt(423KB)
----40000.txt(323KB)
----80000.txt(668KB)
----raw()
--------80000(990KB)
--------30000(1.53MB)
--------20000(8.16MB)
--------60000(470KB)
--------70000(3.29MB)
--------50000(7.86MB)
--------110000(746KB)
--------90000(3.09MB)
--------10000(1.48MB)
--------100000(1.57MB)
--------40000(4.03MB)
--------130000(3.02MB)
----70000.txt(290KB)
----20000.txt(338KB)
----110000_word.txt(45KB)
----60000.txt(164KB)
----50000.txt(455KB)
----100000_word.txt(35KB)
----10000_word.txt(31KB)
----120000_word.txt(34KB)
----90000.txt(331KB)
----110000.txt(303KB)
----30000_word.txt(50KB)
----120000.txt(373KB)
----30000.txt(372KB)
----50000_word.txt(49KB)
----70000_word.txt(32KB)
----40000_word.txt(56KB)
----90000_word.txt(60KB)
----100000.txt(212KB)
----60000_word.txt(21KB)

网友评论

  • 数据太小了
  • 看了下里面的分类,就一个乱字。。
  • 语料质量还好,就是不够大。。
  • 看起来很有意思的样子