CTranslate2:适用于OpenNMT模型的快速推理引擎

时间:2024-02-20 14:26:39
【文件属性】:

文件名称:CTranslate2:适用于OpenNMT模型的快速推理引擎

文件大小:2.34MB

文件格式:ZIP

更新时间:2024-02-20 14:26:39

deep-neural-networks cpp openmp parallel-computing cuda

CTranslate2 CTranslate2是适用于支持CPU和GPU执行的和模型的快速推理引擎。 目标是提供全面的推理功能,并成为部署标准神经机器翻译系统(例如Transformer模型)的最有效和最具成本效益的解决方案。 该项目以生产为导向,具有,但它还包括与模型压缩和推理加速有关的实验功能。 目录 主要特点 在CPU和GPU上快速高效地执行支持的模型和任务的通用深度学习框架相比,执行。 量化和降低精度模型序列化和计算以较低的精度支持权重:16位浮点(FP16),16位整数和8位整数。 多种CPU架构支持该项目支持x86-64和ARM64处理器,并集成了针对这些平台进行了优化的多个后端: , , 和 。 自动CPU检测和代码分配一个二进制文件可以包含多个后端(例如Intel MKL和oneDNN)和指令集体系结构(例如AVX,AVX2),它们会在运行时根据CPU信息自动选择。 平行翻译可以使用多个GPU或CPU内核并行高效地运行翻译。 动态内存使用由于在CPU和GPU上都缓存了分配器,因此内存使用量会根据请求大小动态变化,同时仍能满足性能要求。 轻巧的磁盘可


网友评论