文件列表:
开源证券:传媒行业周报:积极把握AI应用及游戏板块进攻弹性.pdf |
下载文档 |
资源简介
>
视频生成领域大模型竞赛加码,或继续助推多模态AI应用商业化落地
10月4日,Meta发表论文《MovieGen:ACastofMediaFoundationModels》,首次公开其用于媒体的突破性生成式AI模型组合,包括300亿参数的最大基础文生视频模型MovieGenVedio、130亿参数的最大基础音频生成模型MovieGenAudio,及对MovieGenVideo模型进行后训练获得的PersonalizedMovieGenVideo和MovieGenEdit,从而可实现文本生成视频及音频、图片生成视频、个性化视频生成、精准编辑视频等功能,Meta表示MovieGen在这些方面表现均优于业内类似模型,且其通过联合预训练,处理约1亿个视频和约10亿张图像,通过“观看”视频来学习视觉世界,不再是DiT架构的模型,即与当前主流文生视频模型架构不一样。此前9月24日,字节跳动旗下火山引擎发布基于DiT架构的两款视频生成大模型PixelDance和Seaweed,其不仅可遵循复杂Prompt,还能让不同人物完成多个动作指令的互动,通过高效的DiT融合计算单元,让视频在大动态与运镜中自由切
加载中...
已阅读到文档的结尾了