文件名称:infinibatch:高效,经过检查的数据加载,可通过海量数据集进行深度学习
文件大小:372KB
文件格式:ZIP
更新时间:2024-03-10 03:50:05
Python
Infini批次 Infinibatch是一个可检查点的迭代器库,用于在深度神经网络训练中对海量数据集进行随机数据加载。 特征 对语料库的支持远大于RAM 整个语料库上的分层块+句子级随机化,每个时期不同的随机化 仅加载所需的数据 启动时间非常快(不需要阅读完整的语料库) 只需要最基本的数据准备(例如,无索引) 对于多GPU,仅加载相应GPU的需求 100%准确的检查点,从检查点还原不应读取所有数据直至检查点 支持具有动态批次大小的自动桶装批次 预取线程 可组合的,以支持复杂的批处理,例如来自多个文档的阴性样品 入门 Infinibatch需要Python 3.5,并且没有依赖项。 目前没有pip包。 要安装它,请克隆此存储库并在本地安装。 git clone https://github.com/microsoft/infinibatch cd infinibatch pip
【文件预览】:
infinibatch-main
----bin()
--------block_randomize.py(4KB)
--------block_randomize_and_batch.py(701B)
----pyproject.toml(30B)
----docs()
--------config.mako(2KB)
--------presentations()
----.github()
--------workflows()
----test()
--------test_iterators.py(26KB)
--------test_doctests.py(372B)
--------test_datasets.py(5KB)
----SECURITY.md(3KB)
----LICENSE(1KB)
----requirements.txt(0B)
----setup.py(401B)
----.gitignore(7KB)
----CODE_OF_CONDUCT.md(444B)
----README.md(15KB)
----infinibatch()
--------iterators.py(54KB)
--------datasets.py(4KB)
--------__init__.py(14KB)