文件名称:nama:快速,灵活的名称匹配,适用于大型数据集
文件大小:326.13MB
文件格式:ZIP
更新时间:2024-06-07 02:26:02
sklearn pytorch networkx Python
纳玛 快速,灵活的名称匹配,适用于大型数据集 警告: nama正在重构和修订。 当前代码不是最终的。 示范代码 以下代码(来自nama/demo/demo.py )说明了如何使用字符串简化和标记相似性度量来匹配字符串。 import os import pandas as pd import nama # Create some simple dataframes to match df1 = pd . DataFrame ([ 'ABC Inc.' , 'abc inc' , 'A.B.C. INCORPORATED' , 'The XYZ Company' , 'X Y Z CO' ], columns = [ 'name' ]) df2 = pd . DataFrame ([ 'ABC Inc.' , 'XYZ Co.' ], columns = [ 'name' ]) prin
【文件预览】:
nama-master
----old()
--------trainingData()
--------similarity.py(3KB)
--------tokenizers.py(333B)
--------rnnEmbedding.py(15KB)
--------utilities.py(2KB)
--------trainedModels()
--------matcher.py(14KB)
--------hashes.py(712B)
--------lsi.py(2KB)
--------LICENSE(1KB)
--------__init__.py(188B)
--------buildTrainingData.py(5KB)
--------requirements.txt(256B)
--------.gitignore(1KB)
--------demo()
--------README.md(6KB)
--------.gitattributes(66B)
----LICENSE(34KB)
----strings.py(750B)
----__init__.py(15KB)
----compare.py(5KB)
----.gitignore(1KB)
----demo()
--------demo.py(5KB)
--------matcher.csv(176B)
----README.md(5KB)
----.gitattributes(66B)
----token_similarity.py(5KB)