country-names:使用Wikipedia数据创建查找表以消除国家_地区名称的歧义

时间:2024-06-02 05:55:22
【文件属性】:

文件名称:country-names:使用Wikipedia数据创建查找表以消除国家_地区名称的歧义

文件大小:55KB

文件格式:ZIP

更新时间:2024-06-02 05:55:22

Python

国家消歧 这些脚本有助于构建列表以消除国家名称的歧义。 Wikipedia中的ISO 3166国家/地区列表用作“标准”国家/地区名称列表( )。 脚本get3166.py从Wikipedia get3166.py ISO 3166国家名称和其他信息的列表,并将其保存在get3166.py中。 脚本disambiguate.py为每个ISO 3166国家/地区名称生成一个替代名称的查找表。 它通过解析由DBpedia项目构建的Wikipedia上的传递重定向列表来实现。 最终结果是一个包含两列的CSV文件:备用国家/地区名称和标准化(ISO 3166)名称。 由于Wikipedia重定向存储在dbpedia中的方式,因此将包括一些实际上不是国家名称的替代国家名称,但是除了使查找表变得比必要的大一点之外,这无关紧要。 该代码非常脆弱且缓慢,但是不必经常运行它。 感谢向我建议这种


【文件预览】:
country-names-master
----country-names-cross-ref.csv(238KB)
----get3166.py(1KB)
----README.md(1KB)
----countries.csv(26KB)
----.gitignore(29B)
----disambiguate.py(1KB)

网友评论