edgar-oil-contracts:明证 SEC 石油合同的 EDGAR 系统

时间:2024-08-03 00:15:56
【文件属性】:

文件名称:edgar-oil-contracts:明证 SEC 石油合同的 EDGAR 系统

文件大小:9.5MB

文件格式:ZIP

更新时间:2024-08-03 00:15:56

Python

SEC EDGAR 石油合同查找器 该项目旨在在石油公司提交给美国股票监管机构的文件中找到完整的石油合同机构。 我们使用了多种方法: 使用 Hadoop 集群下载 SEC 文件并将其存储在适当的 SIC 类中。 生成的语料库是一个 JSON 流,其中包含自 1995 年以来提交的每个文档的条目。 通过计算指示石油合同的条款,使用第二个 Hadoop 集群对文档进行评分。 该分数既被视为对提交的文档中的总字数进行了归一化处理,又被视为一个绝对数字(我们实际上想要偏向于长文本)。 我们还使用了一组已确认的正匹配和负匹配来生成一组“分水岭”条款,这些条款仅出现在合同文件中,而不出现在任何其他文件中。 这用于自动生成搜索列表,用于排名的第二阶段。 接触: @Open_Oil,@pudo


网友评论