TrademarkMatch:将USPTO商标数据库与CRSP,COMPUSTAT和CIQ匹配

时间:2024-04-02 05:46:03
【文件属性】:

文件名称:TrademarkMatch:将USPTO商标数据库与CRSP,COMPUSTAT和CIQ匹配

文件大小:24KB

文件格式:ZIP

更新时间:2024-04-02 05:46:03

Python

逐步指南: 时间线 2021/03/09 添加了cmatch.c,尝试使用C而不是Python进行匹配过程以提高性能,这一过程仍在进行中。 已知问题:CIQ清理过程存在错误。 待办事项:完成cmatch。 2021/03/07 分开进行预清洁,清洁和后清洁,以使清洁过程更清晰。 已知问题:CIQ清理过程存在错误。 2021/03/04 添加了比赛后流程以减少样本。 添加了以查找成对的相似公司名称,这主要是由拼写错误引起的。 使用城市名称数据来确保它们是同一公司。 已知问题:案例文件中的城市名称是非标准的,并且也有拼写错误。 2021/02/28 添加了TMC清理过程,更新了所有其他清理过程。 更新了dict json。 添加了Combine_all_names.py 待办事项:使用字符串距离方法减小公司名称的大小。 2021/02/07 添加了CIQ清理过


【文件预览】:
TrademarkMatch-main
----steps.md(951B)
----Match()
--------cmatch.c(7KB)
--------run.py(2KB)
----Clean_name()
--------Clean()
--------clean()
--------Pre_clean()
--------README.md(101B)
--------Post_clean()
--------archived.md(1KB)
----README.md(2KB)
----Bing_search()
--------combine_all_names.py(621B)
--------bing_crsp.py(1KB)
--------readme.md(2KB)

网友评论