文件名称:时间和数据价值-研究论文
文件大小:1018KB
文件格式:PDF
更新时间:2024-06-09 12:51:47
economics of AI machine learning
本文研究了时变数据在提高基于AI的产品和服务的质量方面的有效性。 时间依赖性意味着数据随着时间的流逝而失去与问题的相关性。 这种损失会导致算法性能下降,从而导致创造的业务价值下降。 我们将时间相关性建模为概率分布的转变,并得出一些反直觉的结果。 从理论上讲,我们证明,即使随时间推移收集的无限数量的数据,其预测未来的实质也可能有限,并且在当前有界大小的数据集上进行训练的算法也可以达到类似的性能。 此外,我们证明,通过包含较旧的数据集来增加数据量可能会使公司处于不利地位。 获得这些结果后,我们将回答有关数据量如何创造竞争优势的问题。 我们认为时间依赖性削弱了数据量为企业创建的进入壁垒。 如此之多,以至于那些竞争性公司只要拥有有限但足够的当前数据量,便可以获得更好的性能。 这一结果,加上较旧的数据集可能会降低算法性能的事实,使人们对基于AI的市场中先行者优势的重要性产生怀疑。 我们通过实验来补充理论结果。 在实验中,我们根据经验测量下一个单词预测任务的文本数据中的值损失。 实证测量结果证实了基于AI的业务中时间依赖性和价值贬值的重要性。 例如,七年后,用于下一个单词预测任务的100MB文本数据与50MB当前数据一样有用。