美团发布开源 LongCat-Video 模型:支持分钟级视频生成
AI大事记·2025年10月27日消息,美团旗下 LongCat 团队发布并开源 LongCat-Video 视频生成模型。该模型以统一基座方式,在“文生视频”“图生视频”“视频续写”三大任务上取得开源 SOTA 水平。其特点包括:支持 720p、30fps 高清视频输出,并具备分钟级内容生成能力、长时序一致性与物理运动合理性。
根据官方介绍,LongCat-Video 基于 Diffusion Transformer(DiT)架构,创新采用“条件帧数量”机制区分任务类型:文生视频不需条件帧、图生视频输入一帧参考图、视频续写则依赖多帧前序内容。如此设计使其在视频续写任务中具备明显差异化优势。
模型代码及资源已公开于 GitHub 与 Hugging Face:
🧩 功能解析 + 技术亮点
🎯 多任务统一模型架构
- 文生视频(Text-to-Video):用户输入文本提示即可生成 720p/30fps 视频,解析物体、人物、场景、风格细节。
- 图生视频(Image-to-Video):基于参考图像生成视频,保留主体属性、背景关系与整体风格的连续动态。
- 视频续写(Video-Continuation):在已有多帧条件帧基础上,生成后续内容,支持分钟级连贯输出,无质量显著下降。
🛠 关键技术突破
- Block-Causal Attention 机制:提高视频帧间时序建模能力。
- GRPO 后训练策略:增强模型稳定输出长时序视频的能力。
- 统一 Diffusion Transformer(DiT)基座:实现不同任务共享模型结构、统一推理流程。
🌐 多视角 + 行业观察
- 从产业趋势看:长期以来,视频生成任务多局限于短片 (<10 秒) 或低分辨率,此次 LongCat-Video 向“分钟级”视频生成迈出重要一步。
- 从开源生态看:将模型免费开源有助于研究者、开发者快速实验、构建系统、推动视觉 AI 边界。
- 从国内 AI 布局看:美团在视频生成这一细分赛道的尝试,表明国内平台正在加强自主研发能力,与国际梯队靠近。
- 从商业化视角看:虽然模型强,但如何应用于实际创作流程(如广告、短视频、娱乐内容)仍需观察。
⚠ 风险 / 不确定性 / 观察点
| 方向 | 潜在问题 / 不确定性 | 
|---|---|
| 免费开源后的维护与更新 | 开源虽好,但模型的持续更新、社区活跃度、商业支持是否跟上尚未知。 | 
| 生成视频的质量与可用性 | 虽支持分钟级输出,但在创作场景中是否连贯、无瑕疵、可编辑仍待检验。 | 
| 算力 /推理成本 | 生成 720p/30fps 多分钟视频对算力要求高,成本与资源是否合理是关键。 | 
| 商业化应用与版权风险 | 长视频生成可用于商业内容,如何处理版权、合规、内容安全仍具挑战。 | 
| 模型通用性与任务适配 | 模型虽统一基座,但不同任务间可能仍需特定调优,实际适配成本未知。 | 
🧠 总结 / 思考
核心回顾
- 美团发布开源 LongCat-Video 模型,该模型统一支持“文生 / 图生 /视频续写”三大任务。 
- 模型能稳定生成约 5 分钟级视频,并且开源、可供研究及商业探索。 
- 此举表明视频生成正迈入“长度可控、任务覆盖更广”的新阶段,但资源、质量、伦理、商业化挑战仍不可忽视。 
值得思考 / 我的疑问
- 在真实创作流程中,该模型生成的 “分钟级视频”质量如何、后期编辑如何?
- 算力与成本因素是否限制其在中小创作者中的普及?
- 视频生成伴随版权、内容安全、合规等风险,如何构建生态机制?
- 开源后,美团能否构建社区、维护模型迭代,并推动应用落地?
金句送给你
“当 AI 不再停留在 ‘生成几秒钟视频’,而能连续输出几分钟内容,全新创作维度就被打开了。”
 
 