nama:快速，灵活的名称匹配，适用于大型数据集下载

【文件属性】：

文件名称：nama:快速，灵活的名称匹配，适用于大型数据集

文件大小：326.13MB

文件格式：ZIP

更新时间：2024-06-07 02:26:02

sklearn pytorch networkx Python

纳玛快速，灵活的名称匹配，适用于大型数据集警告： nama正在重构和修订。当前代码不是最终的。示范代码以下代码（来自nama/demo/demo.py ）说明了如何使用字符串简化和标记相似性度量来匹配字符串。 import os import pandas as pd import nama # Create some simple dataframes to match df1 = pd . DataFrame ([ 'ABC Inc.' , 'abc inc' , 'A.B.C. INCORPORATED' , 'The XYZ Company' , 'X Y Z CO' ], columns = [ 'name' ]) df2 = pd . DataFrame ([ 'ABC Inc.' , 'XYZ Co.' ], columns = [ 'name' ]) prin

立即下载

【文件预览】：
nama-master
----old()
--------trainingData()
--------similarity.py(3KB)
--------tokenizers.py(333B)
--------rnnEmbedding.py(15KB)
--------utilities.py(2KB)
--------trainedModels()
--------matcher.py(14KB)
--------hashes.py(712B)
--------lsi.py(2KB)
--------LICENSE(1KB)
--------__init__.py(188B)
--------buildTrainingData.py(5KB)
--------requirements.txt(256B)
--------.gitignore(1KB)
--------demo()
--------README.md(6KB)
--------.gitattributes(66B)
----LICENSE(34KB)
----strings.py(750B)
----__init__.py(15KB)
----compare.py(5KB)
----.gitignore(1KB)
----demo()
--------demo.py(5KB)
--------matcher.csv(176B)
----README.md(5KB)
----.gitattributes(66B)
----token_similarity.py(5KB)

秒客网

nama:快速，灵活的名称匹配，适用于大型数据集

网友评论

相关文章