文件列表:
太平洋证券:传媒互联网行业周报:国产多模态模型持续加速迭代.pdf |
下载文档 |
资源简介
>
报告摘要
图像:腾讯发布混元图像2.0,Manus上线生图功能
腾讯发布混元图像2.0模型,该模型显著提升生图速度,实现输入即输出的毫秒级响应。同时,基于实时生图的优势,模型推出实时绘画板功能,可根据创作者的绘图要求,实时生成预览效果,有效提升图像生成交互体验。此外,Manus上线图像生成功能。不同于文生图模型,Manus生图功能将生图过程嵌入Agent工作流,具备理解用户意图、制定解决方案、并调用包括生图在内的各种工具完成任务的能力。从测评结果来看,因引入思考和制定方案的过程,生图时间明显长于主流生图模型,且对于复杂任务可能出现无法生成的情况。
音视频:MiniMaxSpeech02发布,豆包视觉理解模型更新音频模型方面:1)MiniMax全新文本转语音模型Speech02:该模型可完成32种语言、不同口音、不同音色、不同情绪的语音内容生成。在两项语音基准测评中,其得分均超越了语音生成领域龙头OpenAI和ElevenLabs,位列第一。2)豆包·音乐模型升级:该模型不仅支持英文歌曲创作,还可通过理解视频,自动适配纯音乐背景音。视频模型方面:1)豆包视频生成模型Seedance1.0
加载中...
已阅读到文档的结尾了