文件名称:Fuzzycat:Fatcat(WIP)的模糊匹配出版物
文件大小:720KB
文件格式:ZIP
更新时间:2024-03-03 14:06:28
Python
Fuzzycat(WIP) 模糊匹配实用程序。 要使用安装,请运行: $ pip install fuzzycat 总览 Fuzzycat库当前可在并且可以将类似的发布项目聚类,即它可以找到聚类并可以验证匹配候选对象。 例如,我们可以确定: 各种项目的版本(arxiv,figshare,datacite等) 预印本和出版对 来自不同来源的类似物品 去做 获取标题字符串列表并返回匹配候选者(比elasticsearch更快); 例如,派生密钥并在某些缓存的集群中找到相似的密钥 列出标题,作者文件并返回匹配候选人; 例如,密钥可能仅取决于标题,但是验证可以更精确 取得更完整但部分的文件并返回匹配候选者 为此,我们需要从fatcat中预先计算集群并进行缓存。 我们还可能希望按键对它进行排序(这是集群的副作用),因此我们可以对集群文件进行二进制搜索以查找上述待办事项。 数据集 为