文件名称:iww:基于AI的Web包装器,用于Web内容提取
文件大小:60.54MB
文件格式:ZIP
更新时间:2024-03-01 21:27:37
python data-mining library ai information-extraction
IWW-IntelliWebWrapper 一个基于AI的Web挖掘库,用于使用机器学习算法提取Web内容。 当前,该库提供了许多可利用的功能以及一些有趣的算法: DOM提取器,映射器,缩减器和展平功能... DoC,相干度,基于欧几里德距离的相似度。 LD,列出检测器算法。 MCD,主要内容检测器算法。 MCD算法结果积分器方法。 CETD算法。 DOM标签检测器脚本(突出显示选定的节点)。 PS: 该文档尚不可用。 LD和MCD算法将在不久的将来作为研究文章发布。 iww的点子套件将尽快在线提供。 用例示例: 1-提取 from iww . extractor import extractor from iww . detector import detector from iww . features_extraction . lists_detect