MediaAnalysis:从以色列新闻站点提取和分析数据

时间:2024-06-14 17:56:20
【文件属性】:

文件名称:MediaAnalysis:从以色列新闻站点提取和分析数据

文件大小:2.23MB

文件格式:ZIP

更新时间:2024-06-14 17:56:20

text-analysis weka israeli-news-sites HTML

媒体分析 从以色列新闻站点提取和分析数据 Yuval Pinter,2015年(GPL v3许可证) 该项目包含用于分析以下以色列新闻站点头条新闻的代码和数据:ynet,以色列Hayom,Haaretz,Maariv,nrg,Mako,walla。 依次地,我们有以下内容: 标题提取:给定目录结构(例如data / html-dir-sample中的目录结构),为每个站点的每个单个标题创建一条单行记录,用出现在其中的连续时间戳数替换立即重复的记录(保留的标题)。 :media_analysis.mining.ExtractTitlesFromHtml 从2014年7月1日开始,与所有网站的html格式兼容,但以下网站除外:Maariv(2014年8月27日),Haaretz(2014年11月25日)和Walla(2015年1月25日)。 标记化附加功能:给出上一步的输出,运行Luc


【文件预览】:
MediaAnalysis-master
----.gitignore(96B)
----.project(734B)
----README.md(3KB)
----.settings()
--------org.eclipse.core.resources.prefs(57B)
----conf()
--------conf.txt(659B)
----src()
--------media_analysis()
----LICENSE.md(34KB)
----.classpath(995B)
----.externalToolBuilders()
--------Media_Analysis_Ant_Builder.launch(1KB)
----data()
--------.gitignore(99B)
--------weka-cann-out-4538.arff(240KB)
--------html-dir-sample()
--------tok-cann-all-headlines.txt(3.25MB)
--------letter-ids.txt(183B)
--------wordlists-freqs-2012.txt(2.17MB)
--------israblog-freqs.txt(297KB)
--------4538-summary.txt(9KB)
----build.xml(788B)

网友评论