分享资源・传播知识

QQ登录

微信登录

账号登录没有账号？扫码注册

分享资源・传播知识

QQ注册

微信注册

« 返回已有账号？去登录

分享资源・传播知识

微信扫码登录

开源证券：计算机行业点评报告：ChatGPT推出语音和图像功能，多模态AI加速突破

发布者：wx****35

2023-09-26

362 KB 3 页

互联网开源证券

文件列表：

开源证券：计算机行业点评报告：ChatGPT推出语音和图像功能，多模态AI加速突破.pdf

资源简介

>

事件：ChatGPT推出语音和图像功能9月25日，OpenAI在官网发文表示在ChatGPT推出语音和图像功能，未来两周将向Plus和Enterprise用户推出，语音功能支持iOS和Android平台，图像功能支持全平台。（1）语音功能：用户可以与ChatGPT进行语音对话，让ChatGPT讲故事、读诗等。语音输入端，由开源语音识别系统Whisper将口语转录为文本；语音输出端，由新的文本转语音模型支持，可以从文本和几秒的语音样本中生成类似人类的音频。（2）图像功能：用户可以用图片向ChatGPT提问，支持多轮对话和多图识别，比如拍下冰箱照片询问ChatGPT晚餐吃什么。从OpenAI官网展示的应用案例来看，ChatGPT可以根据用户上传的自行车、说明书、工具箱照片，指引用户完成自行车座椅的调节。谷歌和OpenAI持续加码，多模态AI加速突破在5月的I/O大会上，谷歌推出对标GPT-4的大模型PaLM2，同时表示未来研究重心正转向多模态的Gemini。9月20日，OpenAI宣布推出新版文生图AI工具DALL-E3，DALL-E3通过集成ChatGPT能力实现多项升级。此前，根据Th

加载中...

已阅读到文档的结尾了

你也许会感兴趣的

网友评论>

开通智库会员享超值特权

专享文档

免费下载

免广告

更多特权

外唐智库 | 计算机教程 | Photoshop教程 | 魔方网 | 考研辅导 | 博维教育 | 外语学习 | 公务员辅导 | 司法考试 | 瑜伽教程 | 企业年报库 | 营销方案 | 房地产策划 | 数字化转型 | w3School | 报告合集 | BootWiki