×
img

开源证券:计算机行业点评报告:ChatGPT推出语音和图像功能,多模态AI加速突破

发布者:wx****35
2023-09-26
362 KB 3 页
互联网 开源证券
文件列表:
开源证券:计算机行业点评报告:ChatGPT推出语音和图像功能,多模态AI加速突破.pdf
下载文档
事件:ChatGPT推出语音和图像功能9月25日,OpenAI在官网发文表示在ChatGPT推出语音和图像功能,未来两周将向Plus和Enterprise用户推出,语音功能支持iOS和Android平台,图像功能支持全平台。(1)语音功能:用户可以与ChatGPT进行语音对话,让ChatGPT讲故事、读诗等。语音输入端,由开源语音识别系统Whisper将口语转录为文本;语音输出端,由新的文本转语音模型支持,可以从文本和几秒的语音样本中生成类似人类的音频。(2)图像功能:用户可以用图片向ChatGPT提问,支持多轮对话和多图识别,比如拍下冰箱照片询问ChatGPT晚餐吃什么。从OpenAI官网展示的应用案例来看,ChatGPT可以根据用户上传的自行车、说明书、工具箱照片,指引用户完成自行车座椅的调节。谷歌和OpenAI持续加码,多模态AI加速突破在5月的I/O大会上,谷歌推出对标GPT-4的大模型PaLM2,同时表示未来研究重心正转向多模态的Gemini。9月20日,OpenAI宣布推出新版文生图AI工具DALL-E3,DALL-E3通过集成ChatGPT能力实现多项升级。此前,根据Th

加载中...

已阅读到文档的结尾了

下载文档

网友评论>