容易爆显存
面向轨迹的 DiT 框架,它将文本、视觉和轨迹条件同时集成在一起以生成视频。具体来说,Tora 由轨迹提取器 (TE)、时空 DiT 和运动引导融合器 (MGF) 组成。TE 使用 3D 视频压缩网络将任意轨迹编码为分层时空运动块。MGF 将运动块集成到 DiT 块中以生成遵循轨迹的一致视频。我们的设计与 DiT 的可扩展性无缝契合,允许精确控制具有不同持续时间、宽高比和分辨率的视频内容的动态。大量实验证明,Tora 在实现高运动保真度方面非常出色,同时还能细致模拟物理世界的运动。
https://github.com/alibaba/Tora?tab=readme-ov-file#-inference
Launch on cloud
Powered By RTX 4090
Nodes Information
Primitive Nodes (2)
CLIPLoader
LoadImage
Custom Nodes (15)
AppendStringsToList
CogVideoDecode
CogVideoImageEncode
CogVideoSampler
CogVideoTextEncode
CreateShapeImageOnPath
DownloadAndLoadCogVideoModel
DownloadAndLoadToraModel
GetMaskSizeAndCount
ImageCompositeMasked
ImageResizeKJ
Note
SplineEditor
ToraEncodeTrajectory
VHS_VideoCombine