人工智能的新突破或新挑战？GPT-4o的人声模仿引发OpenAI恐慌

2024-08-09

185看过

OpenAI的GPT-4o模型，这是一种新近发展的人工智能，功能强大，它支持最新的ChatGPT高级语音模式alpha版本，并且是首个同时接收语音、文本和图像数据进行训练的模型。这种全面的训练方式有时候会使得它的行为表现得颇为异常，譬如模仿与其对话人的声线，或在交谈过程中突然发出高声喊叫。

在OpenAI的最新红队报告中，详细记录了对GPT-4o模型的性能及其潜在风险的分析。报告中揭露了模型一些不寻常的行为怪癖，就如前文提到的声音克隆现象。

有趣的是，在特定极端环境下，例如当用户身处嘈杂的街头时与GPT-4o对话，这款模型竟会试图模仿对方的声音，而混乱的背景噪声恰恰是导致这种情况的主因。OpenAI解释说，这是因为模型在处理扭曲的语音信号时出现了解析难题。

至今，OpenAI已经对GPT-4o实施了一些系统级的调整，以防止该模型在高级语音模式中重复这种行为。

据TechCrunch从OpenAI的一位发言人处了解到，现在的GPT-4o已经不再出现那种模仿声音的情况了，因为相应的措施已经到位。在特定的激励下，GPT-4o 显示出它可能释放一些触及心灵的非语言声音或音效，诸如极具挑战性的色情呻吟、尖锐的暴力尖叫以及震耳欲聋的枪响之类。OpenAI 承认，尽管大体上模型会抗拒制作此类音效的请求，偶尔还是有穿透过的例子。

此外，GPT-4o 偶尔可能会涉及侵犯音乐版权的风险——OpenAI 若没有部署有效的防护措施，这类侵权行为仍有可能发生。

于报告中，OpenAI 提到了在高级语音功能的初步阶段，指示 GPT-4o 勿施展其歌唱能力，可能是出于避免模仿已知艺术家的风格、语调或音色的考虑。

这暗示——虽未明确证实——OpenAI 可能利用了受版权保护的资料对 GPT-4o 进行训练。目前仍不明朗的是，OpenAI 是否在秋季将这一高级语音功能展开至更广泛用户时撤销这些限定，正如之前所预告的。

OpenAI 在报告中详述称：为阐明 GPT-4o 在音频模式下的运作，我们更新了若干文本为本的过滤机制以应对音频对话，并开发了筛选工具来发现及阻止包含音乐元素的输出。我们培训 GPT-4o 拒绝受版权保护内容的生成请求，这一直是我们的常规做法的一部分。需要指出的是，OpenAI近日透露，若无法接触到受版权保护的资料，培养现今领先的人工智能模型几乎是不可行的。虽然该公司已与多家数据供应商签订了许可协议，但它依然认为，依据合理使用原则使用未获授权的知识产权保护数据（如音乐作品等）进行培训是有其合理性的。

这份由红队撰写的报告，值得细细品味，它描绘了如何通过一系列缓解和保护措施，使人工智能模型变得更加安全。举例来说，GPT-4拒绝根据人们的言语特点来进行识别，同时也不会回答如“该发言者智力如何？”这类引导性问题。它还会过滤掉暴力和色情的内容提示，并严格禁止涉及极端主义和自我伤害等敏感议题的内容讨论。

人工智能的新突破或新挑战？GPT-4o的人声模仿引发OpenAI恐慌

推荐帖子

揭开NEO人形机器人爆火背后，比特斯拉更强的AI公司是谁？揭开NEO人形机器人爆火背后，

OpenAI七万亿芯片计划启动，挑战苹果与英伟达霸主地位

AI功能跳票，苹果秋季发布不及预期

ChatGPT免费用户破2亿，OpenAI付费业务用户达百万