web2text:论文“ Web2Text的源代码

时间:2024-05-26 18:39:39
【文件属性】:

文件名称:web2text:论文“ Web2Text的源代码

文件大小:30.55MB

文件格式:ZIP

更新时间:2024-05-26 18:39:39

HTML

Web2文字 源代码,ECIR '18上的全文 介绍 该存储库包含 Scala代码将(X)HTML文档解析为DOM树,将其转换为CDOM树,将树叶解释为一系列文本块,并为每个这些块提取特征。 这些功能之上的Python代码,用于训练和评估一元和成对的CNN。 可以使用所提供的Viterbi算法实现,基于CNN输出电势对隐马尔可夫模型进行推断。 src/main/resources/cleaneval/下的数据集: orig :原始页面 clean :参考干净的页面 aligned :使用我们的论文中描述的对齐算法,按字符将干净的内容与相应的原始页面对齐 来自CleanEval上其他各种网页清洁器的输出,位于other_frameworks/output : (Finn等,2001) (Kohlschütter等,2010):默认提取器,文章提取器,最大内容提取器 (Geitg


网友评论