容易爆显存

面向轨迹的 DiT 框架,它将文本、视觉和轨迹条件同时集成在一起以生成视频。具体来说,Tora 由轨迹提取器 (TE)、时空 DiT 和运动引导融合器 (MGF) 组成。TE 使用 3D 视频压缩网络将任意轨迹编码为分层时空运动块。MGF 将运动块集成到 DiT 块中以生成遵循轨迹的一致视频。我们的设计与 DiT 的可扩展性无缝契合,允许精确控制具有不同持续时间、宽高比和分辨率的视频内容的动态。大量实验证明,Tora 在实现高运动保真度方面非常出色,同时还能细致模拟物理世界的运动。

https://github.com/alibaba/Tora?tab=readme-ov-file#-inference