Pyramidal-Flow整合包,图片生成视/频,文字生成视/频,AI视/频生成,bd和ks联合开源
https://pic.siuth.cn/i/2025/67136809d29ded1a8c5563b2.pngPyramid Flow 是由快手、北京大学和北京邮电大学联合组建的研究团队于 2024 年推出的开源超高清视/频生成模型,相关论文成果为「PyramIDAl Flow Matching for Efficient Video Generative Modeling」。这个模型能够根据文本描述生成最长10秒、分辨率高达1280x768、帧率 24fps 的高质量视/频。Pyramid Flow 的核心技术是金字塔流匹配算法,这种算法将视/频生成过程分解为多个不同分辨率的阶段,从而提高生成效率和质量。
该教程基于流匹配的训练高效的自回归视/频生成方法,通过仅在开源数据集上进行训练,它可以以 768p 分辨率和 24 FPS 生成高质量的 10 秒视/频,并自然支持图像到视/频的生成。该教程支持如下模型和功能:
两个模型检查点:
768p:支持以 24FPS 生成长达 10 秒的视/频
384p :支持以 24FPS 生成 5 秒视/频
两个功能:
文生视/频(text_to_video)
图像生成视/频(image_to_video)
链接:https://pan.quark.cn/s/0d12551ed6ea
链接: https://pan.baidu.com/s/1UMbDsopW4gu8x2rp1OEgmQ 提取码: 9qr6
页:
[1]