文件名称:serf:斯坦福实体解决方案框架
文件大小:32KB
文件格式:ZIP
更新时间:2024-05-31 00:53:43
Java
:斯坦福实体决议框架 修改/更新了分支(2015年5月)。 由完成的原始工作(2006年4月)。 介绍 SERF项目开发了用于实体解析(ER)的通用基础结构。 ER是识别和组合代表相同真实实体(例如,客户或产品)的数据记录的任务。 SERF软件的此版本提供了参考文献[1]中描述的R-Swoosh算法的实现。 该算法将记录的数据集(以CSV格式)和“ MatcherMerger”类作为输入,该类实现用于匹配和合并记录对的函数,并返回已解析记录的数据集。 提*品记录的样本数据集,以及一个简单的MatcherMerger实现作为示例(在/ example目录中)。 根据记录的标题(使用Jaro-Winkler距离)和价格(通过相对差异)的相似性来匹配记录。 SERF软件包的源代码已包含(在/ src目录中),并根据BSD许可证发布(请参阅LICENSE)。 要求 JDK6 + 该示例
【文件预览】:
serf-master
----settings.gradle(27B)
----module_serf.xml(2KB)
----serf.xml(5KB)
----src()
--------sources(49B)
--------serf()
----serf.iml(594B)
----LICENSE(2KB)
----README.md(4KB)
----libs()
--------secondstring.LICENSE(2KB)
----serf.properties(191B)
----.gitignore(189B)
----build.gradle(232B)