ChatGPT现在可以看到、听到和说话-GPT-4多模态版本上线

ChatGPT安卓/电脑

OpenAI 开始在 ChatGPT 中推出新的语音和图像功能,允许您进行语音对话或向 ChatGPT 展示画面。Plus 和企业用户将在未来两周内体验语音和图像,不久后推出给其他用户组,包括开发人员。

图像理解由多模态 GPT-3.5 和 GPT-4 提供支持,你现在可以向 ChatGPT 展示一个或多个图像。这些模型可以将其语言推理技能应用于各种图像,例如照片、屏幕截图以及包含文本和图像的文档。

文本转语音由新的模型提供支持,它能够从几秒钟的真实语音中制作出逼真的合成语音。ChatGPT 的预设语音来自直接合作的专业配音演员。语音转文本由 OpenAI Whisper 模型支持。

ChatGPT现在可以看到、听到和说话-GPT-4多模态版本上线

以下来自官方网页的介绍

我们非常高兴地宣布,我们正在向ChatGPT引入全新的语音和图像功能。这些功能将为您提供一种更直观、更多样化的与ChatGPT互动的方式。

通过语音和图像功能,您可以更轻松地与ChatGPT进行对话,同时可以使用图像来增强交流。这些功能将使您能够在各种情境下更好地利用ChatGPT的能力。

举例来说,当您正在旅行时,可以拍摄地标的照片,并立即与ChatGPT讨论关于这个地方的有趣信息。当您回到家时,您可以拍摄冰箱和食品储藏室的照片,以获取晚餐的建议,并甚至可以要求ChatGPT提供食谱。在晚餐后,您可以通过拍照、圈出问题并与ChatGPT分享,来帮助您的孩子解决数学问题。

我们计划在接下来的两周内向Plus和Enterprise用户推出ChatGPT的语音和图像功能。语音功能将在iOS和Android上提供,您可以在设置中选择加入。而图像功能将在所有支持的平台上提供。

现在,您可以开始使用语音功能与ChatGPT进行来回对话。无论您是在哪里,都可以与ChatGPT互动,为家人要求睡前故事,或者解决餐桌上的争论。这些功能将进一步丰富您的ChatGPT体验,带来更多乐趣和便利。

要开始使用语音功能,请打开移动应用程序并前往“设置”→“新功能”。在那里,您可以选择加入语音对话。接下来,在应用程序的主屏幕右上角,您会看到一个耳机按钮,点击它以选择您喜欢的声音,其中包括五种不同的声音选项。

这一新的语音功能得到了新的文本转语音模型的支持,该模型能够从文本和短样本语音中生成与人类相似的音频。每个声音都是与专业配音演员合作创作的,以确保声音的自然和质量。此外,我们还使用了我们的开源语音识别系统Whisper,将您的口语转录为文本,从而使语音对话更加流畅。


您现在还可以向ChatGPT显示一张或多张图像,以更丰富地交流。您可以使用这个功能来排查烧烤炉为什么无法启动,探索冰箱中的食材以计划膳食,或者分析复杂的图表以获取与工作相关的数据。如果您希望特别关注图像的某一部分,还可以使用应用程序中提供的绘图工具来进行标注。

这些新的语音和图像功能将为您的ChatGPT体验带来更多乐趣和便捷,使您能够更直观地与ChatGPT进行互动。无论是语音对话还是图像交流,都将丰富您与ChatGPT的互动方式。

我们很高兴地宣布,我们在ChatGPT中推出了新的语音和图像功能。这些功能将为用户提供更直观、更多样化的互动方式,使ChatGPT成为更有用的工具。

语音功能允许用户进行语音对话,通过语音与ChatGPT进行互动。您可以随时与ChatGPT交谈,请求睡前故事,解答问题,或只是进行闲聊。这一功能支持iOS和Android,并提供五种不同的声音选项供用户选择。

图像功能允许用户通过上传照片或图像来进行图像交流。您可以与ChatGPT一起浏览图像,分析图表,或讨论您感兴趣的事物。此外,图像功能还提供了绘图工具,以便用户可以在图像上进行标注和指导。

这些新功能的背后是多模态GPT-3.5和GPT-4模型,它们结合了文本和图像理解的能力。这些模型已经通过与专业配音演员和红队的合作进行了测试和改进,以确保安全和可靠性。

我们逐步推出这些功能,以便在提供更多功能的同时,不断改进和加强风险缓解措施。这样,我们可以为未来更强大的系统做好准备,同时确保每个人都可以安全地使用ChatGPT。

我们鼓励用户通过iOS和Android应用程序的“设置”中的“新功能”选项来尝试语音和图像功能。我们期待着用户的反馈,以帮助我们进一步完善这些功能,使其更适合各种用途。同时,我们也将在接下来的几周内向Plus和Enterprise用户推出这些功能,以扩大访问范围。

OpenAI:https://openai.com/blog/chatgpt-can-now-see-hear-and-speak

ChatGPT安卓/电脑