文件名称:TMA_match
文件大小:15KB
文件格式:ZIP
更新时间:2024-03-24 10:22:26
Python
逐步指南: 时间线 2021/02/28 添加了TMC清理过程,更新了所有其他清理过程。 更新了dict json。 添加了Combine_all_names.py 已知问题:使用字符串距离方法减小公司名称的大小。 2021/02/07 添加了CIQ清理过程,更新了compustat和tma清理过程。 添加了匹配过程,使用最大权重函数定义匹配项。 已知问题:进一步清除步骤:合并名称文件,减少重复的文件。 2021/02/03 添加了CRSP清理过程。 将json替换为pickle以便在整体代码中保存数据。 添加了CRSP bing搜索过程,它使用并行计算将多个请求发送到Microsoft Azure,从而大大节省了时间。 (注意:这也意味着这笔钱将很快用完。) 添加了初步的匹配代码,它使用并行计算来节省时间。 已知问题:CIQ干净名称流程和匹配流程仍在进行中。
【文件预览】:
TMA_match-main
----README.md(1KB)
----Clean_name()
--------clean()
--------Pre_clean()
--------readme.md(1KB)
----bing_search_intro.md(3KB)
----steps.md(1KB)
----Match()
--------run.py(2KB)
----Bing_search()
--------bing_crsp.py(1KB)
--------combine_all_names.py(621B)