文件名称:knowledge_search:由Wikipedia提供支持的基于图的知识搜索引擎
文件大小:8.59MB
文件格式:ZIP
更新时间:2024-06-03 07:14:45
JavaScript
知识搜寻 由Wikipedia提供支持的基于图的知识搜索引擎 连接图中的文章 主体文本中的第一个链接标识了文章之间的层次关系:香蕉链接到水果,钢琴链接到乐器,等等。 搜索引擎构造一个有向图,该图使用第一个链接连接1100万篇英语文章(600万次重定向)。 对于那些对网络拓扑结构感到好奇的人,请浏览一下启发该项目的。 例如:钢琴 父级 可比 孩子们 乐器 音乐盒,小提琴家族,玻璃口琴 钢琴音乐,钢琴音乐,三角钢琴,莉莉·麦斯基,威廉·梅里根·戴利 图的实现 在此处下载完整的XML转储: : 提取主体文本(get_first_link.py)中的第一个链接 使用Spark DataFrames进行分布式计算(在8节点AWS集群上) Databricks XML包用于描绘页面: : //github.com/databricks/spark-xml 将图存储在neo4j中 按