中国科大携手字节跳动:全新长视频生成模型引领行业变革
国产视频生成技术的重大突破
在当今科技飞速发展的时代,视频生成技术领域正迎来一场意义深远的变革。中国科学技术大学与字节跳动即将联合发布一款端到端长视频生成模型,这一成果无疑是该领域的一座里程碑。此模型具备强大的生成能力,能够直接生成分钟级长度、480p分辨率、24帧/秒(fps)的高质量视频,并且支持多镜头场景的流畅切换。这一突破标志着国产视频生成技术在全球生成式AI竞赛中迈出了关键一步。
核心算法MoGA
该成果的核心在于其底层算法——MoGA(Modular Global Attention),这是一种创新的注意力机制。它专门针对长视频生成中面临的上下文扩展与算力开销问题进行设计。通过对MoGA结构的优化,模型能够处理长达580K token的上下文信息,在大幅降低计算成本的同时,让长时间、多场景的视频生成成为现实。
MoGA带来的变革
传统的视频生成模型由于受到显存和计算量的限制,通常只能生成几秒钟的动画GIF或短片。而MoGA的引入,使得模型能够“一次性”生成包含多个镜头切换、视觉叙事连贯的“迷你短片”,极大地拓展了生成式视频模型的应用范围。
MoGA的优势与应用
值得一提的是,MoGA具有高度的模块化与兼容性,它可以直接与现有的高效加速库(如FlashAttention、xFormers、DeepSpeed等)集成,从而实现更快的训练与推理效率。这不仅体现了该技术在科研方面的突破意义,还使其具备了强大的产业落地潜力。
可以为影视创作提供丰富的素材和创意,加速创作过程。
帮助企业快速生成有吸引力的广告视频,降低制作成本。
为游戏增添精彩的过场动画,提升游戏体验。
为数字人生成多样化的视频内容,丰富数字人的表现形式。
全球竞争中的领先地位
在全球范围内,OpenAI、Pika、Runway等公司都在积极推进短视频生成技术。而中国科大与字节跳动此次推出的模型,被认为是国内首个真正实现分钟级长视频生成的系统。其在算法、效率和可扩展性上的领先优势,有望推动中国在视频生成领域跻身全球前列。
更多详细信息可参考:https://jiawn-creator.github.io/mixture-of-groups-attention/