nd-direct-s3:直接从S3读取NDArrays

时间:2024-03-06 16:47:22
【文件属性】:

文件名称:nd-direct-s3:直接从S3读取NDArrays

文件大小:23KB

文件格式:ZIP

更新时间:2024-03-06 16:47:22

C++

张量器0.1 Tensorizer是一个库,可让您从支持的云存储(s3)加载张量,而无需跳至任何类型的posix文件系统。 这很有用,因为云主机通常对S3的访问比对文件卷(例如EBS)的访问要快得多。 例如,p3dn.24xlarge实例从S3读取时可以100 Gbps读取,但是从EBS读取时只能以1​​4 Gbps读取。 相比之下,具有相对较快SSD的Macbook Air可获得约10 Gbps的连续读取速度。 这足够快以在训练精美的计算机视觉或NLP模型时加载张量吗? 我不知道,但我希望是。 加载大型数据集的传统方式是将它们以压缩格式存储在网络存储中,将它们复制到本地磁盘上,对其进行解压缩,然后运行许多数据转换,然后再将它们最终存储在张量中。 如果您可以提前进行所有必需的数据转换,并以可直接用于训练的格式将张量存储在S3中,则可以简化过程。 对您而言是否合适,可能取决于您的用例以及


【文件预览】:
nd-direct-s3-master
----LICENSE(11KB)
----.devcontainer()
--------Dockerfile(3KB)
--------devcontainer.json(994B)
----.gitignore(320B)
----README.md(3KB)
----utils()
--------benchmark_tensor_reads.py(698B)
--------tensor_constants.py(146B)
--------__pycache__()
--------aws_clients.py(148B)
--------generate_random_tensors.py(1KB)
----tensorizer()
--------cpp()
--------python()
----.vscode()
--------launch.json(929B)
--------settings.json(2KB)
--------tasks.json(317B)
--------c_cpp_properties.json(940B)

网友评论