文件名称:在知识库中发现集合信息的隐藏语义-研究论文
文件大小:1.76MB
文件格式:PDF
更新时间:2024-06-09 11:07:24
论文研究
知识库(KB)包含大量有关实体和谓词的结构化信息。 本文着重于集值谓词,即一个实体与一组实体之间的关系。 以KB为单位,该信息通常以两种格式表示:(i)通过计算存储聚合整数的谓词(例如numberOfChildren和staffSize),以及(ii)枚举存储个人集合成员资格的谓词(例如parentOf和worksFor)。 两种格式通常是互补的:与枚举谓词不同,计数谓词不会放弃个人,但更可能提供有关真实集合大小的信息,因此,这种共存可以启用有趣的应用程序进行问题解答和KB策划。 在本文中,我们旨在发现这种隐藏的知识。 我们分两步进行。 (i)我们通过统计和基于嵌入的特征从给定的KB谓词中识别出集值谓词。 (ii)我们通过同时出现,相关性和文本相关性度量的组合来链接计数谓词和枚举谓词。 我们分析了四个重要知识库中计数信息的普遍性,并表明我们的链接方法在集合谓词识别中最高达到0.55 F1得分,而在随机选择中达到0.40 F1得分,并且在位置1和位置处的归一化折现增益最高为0.84。在相关谓词对齐中的位置3处为0.75。 我们的谓词对齐方式在https://counqer.mpi-inf.mpg.de/spo上的演示系统中得以展示。