文件名称:TurboTransformers:一种快速且用户友好的运行时,用于在CPU和GPU上进行变压器推断(Bert,Albert,GPT2,Decoders等)
文件大小:2.96MB
文件格式:ZIP
更新时间:2024-02-24 09:07:11
nlp gpu decoder machine-translation inference
TurboTransformers:一种快速且用户友好的运行时,可在CPU和GPU上进行变压器推断 通过在您的推理引擎中添加涡轮增压器,使变压器快速服务! 微信AI开放源代码的TurboTransformers具有以下特征。 同时支持变压器编码器和解码器。 支持实时可变长度输入。 无需耗时的离线调整。 您可以实时更改批处理大小和请求的序列长度。 出色的CPU / GPU性能。 后端通过手工制作的OpenMP和CUDA代码实现,并涉及一些创新技巧。 完美的可用性。 支持python和C ++ API。 它可以用作PyTorch的插件。 通过添加几行python代码可以获得端到端加速。 智能批处理。 最小化一批不同长度的请求的零填充开销。 内存效率。 一种新的模型感知分配器可确保在可变长度请求服务期间占用较小的内存。 TurboTransformers已在腾讯中应用于多个在线BERT服务方案。 例如,它为微信FAQ服务带来了1.88倍的加速,为公共云情感分析服务带来了2.11倍的加速,为QQ推荐系统带来了13.6倍的加速。 而且,它已经被应用于构建服务,例如Chitchat