OpenAI大更新：GPT-4o语音模式带来更自然、情感丰富的交流方式

AI资讯

2024-08-01

208看过

本帖最后由 denny 于 2024-8-1 16:22 编辑

美国时间周二，即7月30日，美国的人工智能研究机构OpenAI宣布，将开始面向部分ChatGPT Plus用户推出GPT-4o的语音模式。

OpenAI指出，尽管在春季更新期间展示的视频以及屏幕共享功能尚未包含在Alpha版本中，这些功能将会在之后的更新中实现。

与以前的语音模式不同，ChatGPT的高级语音模式采用了全新的技术架构。原有的系统依赖三个独立的模型：第一个模型负责把用户语音转为文字，接着由GPT-4处理Prompt，然后第三个模型将ChatGPT产出的文字转化为语音输出。

而GPT-4o则是一个集成的多模态模型，可以在无需其他辅助模型的情况下独立完成这些任务，这在实际体验中能显著减少对话的延时。

此外，OpenAI透露，GPT-4o能够洞察到用户声音中的情感波动，无论是悲伤、兴奋还是歌唱的情绪。目前，Alpha组的用户在ChatGPT中会接收到相关提醒，并且将通过电子邮件收到使用此新功能的具体指南。今年五月份，OpenAI推出了最新升级的大型模型GPT-4o，并首次展示了其语音模式。原计划在六月底向用户陆续开放这一模式的使用，但公司最后决定将发布时间推迟到七月。所有ChatGPT Plus用户将在今年秋季可以体验到这一新功能。

OpenAI在周二发表声明称：“通过分阶段推出新功能，我们能够更好地监测使用情况，并基于用户的直接反馈，持续优化模型的性能和安全性。”此外，公司还提到，它正持续开发五月份在发布会上预览的视频及屏幕共享功能，但这些功能的上线时间尚未明确。

因此，语音模式在最开始的实用性将是有限的。例如，ChatGPT将不能整合计算机视觉功能，这项功能原本能让聊天机器人通过智能手机摄像头，对用户的舞蹈动作提供语音评论。

目前，GPT-4o的语音模式支持四种不同的预设声音，分别是Juniper、Breeze、Cove和Ember，这些声音均是通过与付费配音演员的合作生成的。

此前，ChatGPT的一个女性配音Sky因过于类似好莱坞星星斯嘉丽·约翰逊的声音，引起了争议。在收到约翰逊团队的法律函件后，OpenAI临时停用了Sky声音。OpenAI最近宣布了一项新的措施，引入了高级过滤系统，旨在确保其软件能够识别并拒绝生成那些受版权保护的音乐或其他形式音频的请求。对于一家AI公司来说，规避法律的纠葛已成为一项需要特别注意的议题。

值得一提的是，在6月21日，OpenAI公开宣称已经成功并购了新兴企业Rockset，不仅获得了其珍贵的人才资源，同时也吸纳了其关键技术。

据OpenAI在公告中透露，AI技术持有极大潜力改变个体及组织对自身数据的使用方式。这正是他们选择收购Rockset的原由。Rockset是一家专门提供尖端实时分析功能的数据库企业，拥有世界领先的数据索引与查询技术。

Rockset带来的“向量搜索”关键技术，随着更多企业开始部署人工智能以驱动推荐引擎、语音助手、聊天机器人等应用，该技术的应用场景也正在迅速扩展。

OpenAI大更新：GPT-4o语音模式带来更自然、情感丰富的交流方式

推荐帖子

揭开NEO人形机器人爆火背后，比特斯拉更强的AI公司是谁？揭开NEO人形机器人爆火背后，

OpenAI七万亿芯片计划启动，挑战苹果与英伟达霸主地位

AI功能跳票，苹果秋季发布不及预期

ChatGPT免费用户破2亿，OpenAI付费业务用户达百万