SORA利用了扩散模型和Transformer架构,这使得它不仅具备从文本生成视频的能力,还能从静态图片或扩展已有视频中生成新的内容。SORA是一种类似DiT的扩散模型(DiT的架构如上图所示),舍弃了传统的U-Net架构,性能相比U-Net更优,同时继承了 Transformer 模型类出色的缩放特性。
SORA同时采用NaViT的patch打包在同一序列的方法,实现可变的持续时间、分辨率、宽高比等效果。
而大语言模型则侧重于使用Transformer架构来理解和生成文本内容。
SORA利用了扩散模型和Transformer架构,这使得它不仅具备从文本生成视频的能力,还能从静态图片或扩展已有视频中生成新的内容。SORA是一种类似DiT的扩散模型(DiT的架构如上图所示),舍弃了传统的U-Net架构,性能相比U-Net更优,同时继承了 Transformer 模型类出色的缩放特性。
SORA同时采用NaViT的patch打包在同一序列的方法,实现可变的持续时间、分辨率、宽高比等效果。
而大语言模型则侧重于使用Transformer架构来理解和生成文本内容。