OpenAI大更新:GPT-4o语音模式带来更自然、情感丰富的交流方式

2024-08-01
208看过
本帖最后由 denny 于 2024-8-1 16:22 编辑

a1.png

美国时间周二,即730日,美国的人工智能研究机构OpenAI宣布,将开始面向部分ChatGPT Plus用户推出GPT-4o的语音模式。


OpenAI指出,尽管在春季更新期间展示的视频以及屏幕共享功能尚未包含在Alpha版本中,这些功能将会在之后的更新中实现。


与以前的语音模式不同,ChatGPT的高级语音模式采用了全新的技术架构。原有的系统依赖三个独立的模型:第一个模型负责把用户语音转为文字,接着由GPT-4处理Prompt,然后第三个模型将ChatGPT产出的文字转化为语音输出。


GPT-4o则是一个集成的多模态模型,可以在无需其他辅助模型的情况下独立完成这些任务,这在实际体验中能显著减少对话的延时。


此外,OpenAI透露,GPT-4o能够洞察到用户声音中的情感波动,无论是悲伤、兴奋还是歌唱的情绪。目前,Alpha组的用户在ChatGPT中会接收到相关提醒,并且将通过电子邮件收到使用此新功能的具体指南。今年五月份,OpenAI推出了最新升级的大型模型GPT-4o,并首次展示了其语音模式。原计划在六月底向用户陆续开放这一模式的使用,但公司最后决定将发布时间推迟到七月。所有ChatGPT Plus用户将在今年秋季可以体验到这一新功能。


OpenAI在周二发表声明称:“通过分阶段推出新功能,我们能够更好地监测使用情况,并基于用户的直接反馈,持续优化模型的性能和安全性。”此外,公司还提到,它正持续开发五月份在发布会上预览的视频及屏幕共享功能,但这些功能的上线时间尚未明确。


因此,语音模式在最开始的实用性将是有限的。例如,ChatGPT将不能整合计算机视觉功能,这项功能原本能让聊天机器人通过智能手机摄像头,对用户的舞蹈动作提供语音评论。

a2.png

目前,GPT-4o的语音模式支持四种不同的预设声音,分别是JuniperBreezeCoveEmber,这些声音均是通过与付费配音演员的合作生成的。


此前,ChatGPT的一个女性配音Sky因过于类似好莱坞星星斯嘉丽·约翰逊的声音,引起了争议。在收到约翰逊团队的法律函件后,OpenAI临时停用了Sky声音。OpenAI最近宣布了一项新的措施,引入了高级过滤系统,旨在确保其软件能够识别并拒绝生成那些受版权保护的音乐或其他形式音频的请求。对于一家AI公司来说,规避法律的纠葛已成为一项需要特别注意的议题。


值得一提的是,在621日,OpenAI公开宣称已经成功并购了新兴企业Rockset,不仅获得了其珍贵的人才资源,同时也吸纳了其关键技术。


OpenAI在公告中透露,AI技术持有极大潜力改变个体及组织对自身数据的使用方式。这正是他们选择收购Rockset的原由。Rockset是一家专门提供尖端实时分析功能的数据库企业,拥有世界领先的数据索引与查询技术。


Rockset带来的“向量搜索”关键技术,随着更多企业开始部署人工智能以驱动推荐引擎、语音助手、聊天机器人等应用,该技术的应用场景也正在迅速扩展。

回复

举报

 
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表