文件名称:ebola.sitrep:机器可读的综合埃博拉情况报告
文件大小:57.39MB
文件格式:ZIP
更新时间:2024-07-22 20:56:27
R
介绍 该软件包将埃博拉情况报告解析并整合为机器可读的格式。 目前它知道如何处理来自和卫生部的所有 PDF 情况报告。 这些情况报告是最直接的数据来源,因为它们通常每天更新。 相比之下,每周发布一次。 任何关注埃博拉疫情的人都知道以机器可读格式获取高质量数据是多么困难。 我认为这是因为稀缺资源(正确地)用于抗击疫情,而不是为半个地球之外的数据科学家服务。 无论如何,获取高质量数据是一项重大挑战,解决方案主要是手动转录数据,如所见。 撇开慷慨和艰巨的努力不谈,这种方法的挑战在于人力成本高昂,而且人们还有其他事情要做(例如完成论文)。 显然,自动化是一种更好的解决方案,但考虑到情况报告是嵌入在 PDF 文件中的表格,自动化是一个重要的解决方案。 随着围绕埃博拉病毒的所有宣传和各种贡献,我很惊讶没有人解决提供可靠和及时数据的真正问题。 我个人认为,如果数据是由人和机器容易使用的获取信息才是有用的