人工智能的新突破或新挑战?GPT-4o的人声模仿引发OpenAI恐慌

2024-08-09
185看过

OpenAIGPT-4o模型,这是一种新近发展的人工智能,功能强大,它支持最新的ChatGPT高级语音模式alpha版本,并且是首个同时接收语音、文本和图像数据进行训练的模型。这种全面的训练方式有时候会使得它的行为表现得颇为异常,譬如模仿与其对话人的声线,或在交谈过程中突然发出高声喊叫。


j1.jpg


OpenAI的最新红队报告中,详细记录了对GPT-4o模型的性能及其潜在风险的分析。报告中揭露了模型一些不寻常的行为怪癖,就如前文提到的声音克隆现象。


有趣的是,在特定极端环境下,例如当用户身处嘈杂的街头时与GPT-4o对话,这款模型竟会试图模仿对方的声音,而混乱的背景噪声恰恰是导致这种情况的主因。OpenAI解释说,这是因为模型在处理扭曲的语音信号时出现了解析难题。


至今,OpenAI已经对GPT-4o实施了一些系统级的调整,以防止该模型在高级语音模式中重复这种行为。


j2.jpg


TechCrunchOpenAI的一位发言人处了解到,现在的GPT-4o已经不再出现那种模仿声音的情况了,因为相应的措施已经到位。在特定的激励下,GPT-4o 显示出它可能释放一些触及心灵的非语言声音或音效,诸如极具挑战性的色情呻吟、尖锐的暴力尖叫以及震耳欲聋的枪响之类。OpenAI 承认,尽管大体上模型会抗拒制作此类音效的请求,偶尔还是有穿透过的例子。


此外,GPT-4o 偶尔可能会涉及侵犯音乐版权的风险——OpenAI 若没有部署有效的防护措施,这类侵权行为仍有可能发生。


于报告中,OpenAI 提到了在高级语音功能的初步阶段,指示 GPT-4o 勿施展其歌唱能力,可能是出于避免模仿已知艺术家的风格、语调或音色的考虑。


这暗示——虽未明确证实——OpenAI 可能利用了受版权保护的资料对 GPT-4o 进行训练。目前仍不明朗的是,OpenAI 是否在秋季将这一高级语音功能展开至更广泛用户时撤销这些限定,正如之前所预告的。


OpenAI 在报告中详述称:为阐明 GPT-4o 在音频模式下的运作,我们更新了若干文本为本的过滤机制以应对音频对话,并开发了筛选工具来发现及阻止包含音乐元素的输出。我们培训 GPT-4o 拒绝受版权保护内容的生成请求,这一直是我们的常规做法的一部分。需要指出的是,OpenAI近日透露,若无法接触到受版权保护的资料,培养现今领先的人工智能模型几乎是不可行的。虽然该公司已与多家数据供应商签订了许可协议,但它依然认为,依据合理使用原则使用未获授权的知识产权保护数据(如音乐作品等)进行培训是有其合理性的。


这份由红队撰写的报告,值得细细品味,它描绘了如何通过一系列缓解和保护措施,使人工智能模型变得更加安全。举例来说,GPT-4拒绝根据人们的言语特点来进行识别,同时也不会回答如“该发言者智力如何?”这类引导性问题。它还会过滤掉暴力和色情的内容提示,并严格禁止涉及极端主义和自我伤害等敏感议题的内容讨论。

回复

举报

 
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表