文件名称:eikon_challenge:eikon挑战代码
文件大小:23KB
文件格式:ZIP
更新时间:2024-05-20 19:34:33
Python
eikon_challenge 这是Eikon挑战代码的一部分。 此处可能只关注features.py文件和设计图。 在这项挑战中,汤森路透(Thomson Reuters)正在寻找一种算法,以根据与新闻中提到的公司或组织的相关性来准确地标记传入的新闻。 我建立了一个系统,能够识别新闻文本中的替代公司名称(使用DBpedia数据),基于股票行情的识别码(Bloomber Symbiology数据)以及基于国家/地区的歧视。 该系统具有以下结构: 查找标记器:执行权威驱动的提及检测,即以较高的召回率提取可能提及的公司名称。 候选人的产生:对于每一个可能的公司,建议几个候选人的公司 特征生成:为每个候选候选人公司生成特征。 分类器:此组件使用功能查找正确的候选者。 最大的挑战之一是找到数据源,以增加有关符合公认许可证的公司列表的信息。
【文件预览】:
eikon_challenge-master
----features.py(19KB)
----candidates.py(5KB)
----__init__.py(97B)
----knowledgebase.py(5KB)
----utils.py(16KB)
----README.md(1KB)
----test()
--------__pycache__()
--------test_utils.py(5KB)
----lookuptagger.py(5KB)