文件名称:wikipedia-redirects
文件大小:72.41MB
文件格式:ZIP
更新时间:2024-08-01 12:04:00
Java
*重定向 用于提取和搜索*重定向(替代标题)的 Java 项目 Michael Gloger 为 FIIT STU Bratislava 的学校作业创建的项目 该项目的主要目标是实现解析器,通过解析来查找 Wikipedia 页面的替代标题。 在其他详细信息中,如果此页面被重定向到另一个页面,我们可以在每个页面记录中找到页面标题和标志。 如果此页面被重定向,我们可以将其标题视为它所指页面的替代标题。 请注意,这个项目没有带来任何令人兴奋的新功能。 *提供在线服务,例如 ,您可以在其中找到与指定页面相关的页面。 这个项目更像是一个挑战,因为输入 XML 文件大于 50 GB,超过 1400 万页记录。 该存储库包含两个 Java 项目: - 解析 Wikipedia XML 转储并将替代标题数据保存到 CSV 文件 - 从文件中读取替代标题,在 Lucene 中索
【文件预览】:
wikipedia-redirects-master
----parser()
--------.project(578B)
--------src()
--------.settings()
--------README.md(1KB)
--------pom.xml(2KB)
--------resources()
--------.classpath(808B)
----README.md(1KB)
----.gitignore(265B)
----server()
--------.project(1KB)
--------src()
--------preview.png(89KB)
--------.settings()
--------README.md(2KB)
--------pom.xml(3KB)
--------resources()
--------.classpath(1KB)