文件名称:matlab接收字符代码-EdgarAnalytics:回购Insight数据工程编码挑战-处理来自SEC的Edgar数据库的会话日志
文件大小:539KB
文件格式:ZIP
更新时间:2024-06-16 16:13:20
系统开源
matlab接收字符代码目录 了解挑战 我们强烈建议您花一些时间来阅读本自述文件的全部内容,然后再开始考虑潜在的解决方案。 在深入研究具体细节之前,您可能会发现复习这些示例并从高层次理解问题很有用,FAQ中涵盖了其中的许多细节。 介绍 许多投资者,研究人员,新闻工作者和其他人员使用证券交易委员会的电子数据收集,分析和检索(EDGAR)系统来检索财务文件,无论他们是在深入研究特定公司的财务状况还是在学习公司拥有的新信息。通过他们的档案透露。 SEC维护EDGAR网络日志,显示哪些IP地址访问了哪个公司的哪些文档以及发生的日期和时间。 想象一下,美国证券交易委员会(SEC)要求您获取数据并生成一个仪表板,以提供有关用户访问EDGAR的方式的实时视图,包括他们停留多长时间以及访问期间访问的文档数量。 尽管SEC通常会在六个月的延迟后公开提供其EDGAR博客,但请想象一下,对于这一挑战,*实体已承诺将实时且无延迟地将数据流传输到您的程序中。 作为数据工程师,您的工作是建立一条管道,以吸收该数据流,并计算出特定用户在访问期间在EDGAR上花费的时间以及该会话期间用户请求的文档数量。 挑战总结
【文件预览】:
EdgarAnalytics-master
----output()
--------README.md(89B)
----insight_testsuite()
--------run_tests.sh(3KB)
--------tests()
----src()
--------sessionizationSupports_TN.py(6KB)
--------sessionization.py(6KB)
--------sessionization_v1.py(3KB)
--------README.md(402B)
--------__pycache__()
--------sessionization_v2.py(7KB)
----images()
--------third_second.png(105KB)
--------fourth_second.png(124KB)
--------second_second.png(83KB)
--------end_of_third.png(120KB)
--------end_of_file.png(130KB)
--------first_second.png(68KB)
----run.sh(296B)
----input()
--------inactivity_period.txt(2B)
--------README.txt(4KB)
--------README.md(74B)
----README.md(27KB)