【突发】OpenAI宣布推出性价比极高的新模型GPT-4o mini

2024-07-19
247看过
本帖最后由 denny 于 2024-7-19 15:25 编辑

据悉,这款GPT-4omini将接替GPT-3.5Turbo的位置,并已在ChatGPT的免费版中正式启用。它在MMLU的表现达到了82%的高分,在LMSYS的排名中,则在聊天偏好上胜过了前代GPT-4

GPT-4omini不仅在性能上有所提升,其成本效益同样令人印象深刻,相较于GPT-3.5Turbo,价格减少了60%,每百万输入token收费仅为15美分,每百万输出token则是60美分。
图片1.png
OpenAI在其官方博客中提到,GPT-4omini的问世将极大推广人工智能(AI)的应用范围,使得人工智能技术变得更加经济实惠。

GPT-4omini凭借其低成本和低延迟的特性,能够在各种任务中展现出色的性能,例如串联或并行多个模型调用(比如同时调用数个应用程序接口)、向模型输送大量的上下文信息(例如整套代码库或完整的对话历史)或是快速且实时地通过文本方式与客户进行互动(例如客户支持聊天机器人)。当前,GPT-4omini的应用程序接口能够处理文本和视觉信息,预计未来还将能够接受文本、图像、视频和音频的输入与输出。这一模型具有128K token的上下文窗口,每次请求最多可处理16K 输出token,其知识截止日期为202310月。得益于与GPT-4o共享的更高效的tokenizerGPT-4omini在处理多语言文本方面更为经济有效。

这个小型模型展现了卓越的文本处理和多模态处理能力。

根据官方博客的描述,GPT-4omini在文本智能和多模态推理领域在学术基准测试上优于GPT-3.5TurboGeminiFlashClaudeHaiku,并且支持与GPT-4o相同的多语言能力。相较于GPT-3.5TurboGPT-4omini在处理长上下文信息时的表现也有显著提升。

目前,OpenAI已在多个重要基准测试中评估了GPT-4omini的推理认知、数学/编程能力及多模态推理能力的表现。

推理任务方面:在涉及文本和视觉元素的推理任务测试中,GPT-4omini表现出较其他小型模型更好的效果。在文本智能和推理的基准MMLU评测中,GPT-4omini的得分为82.0%,而GeminiFlash得分77.9%ClaudeHaiku得分73.8%。数学和编码能力:在数学推理与编码任务上,GPT-4omini显现了卓越的表现,超越了市面上先前的较小型号。据MGSM评测,GPT-4omini在数学推理测试中,取得了87.0%的高分;而GeminiFlashClaudeHaiku的分别仅为75.5%71.7%。在评价编码性能的HumanEval测试中,GPT-4omini同样以87.2%的分数领跑,GeminiFlashClaudeHaiku的得分则分别是71.5%75.9%

多模态推理:在多模态推理的MMMU评价中,GPT-4omini也表现优异,其得分高达59.4%,超过GeminiFlash56.1%ClaudeHaiku50.2%
图片2.png
在其他方面,如从收据文件中提取结构化数据或在提供邮件线索历史时生成优质电邮回复等任务,OpenAI发现GPT-4omini的表现显著胜于GPT-3.5Turbo

内置安全措施

关于安全性,OpenAI自预训练阶段起,已经开始屏蔽那些不希望模型学习或输出的信息。在后期训练过程中,通过采用像RLHF这样的技术,确保模型的行为与人类策略相吻合,进一步提升了模型回应的精确性与可信度。OpenAI在其GPT-4omini内置了与GPT-4o相当的安全防范措施。通过依据预备框架和自愿承诺,该公司采用自动与人工的方式对模型进行了细致的核查。超过70位来自社会心理学及误信息领域的外部专家对GPT-4o进行了深入测试,旨在识别出任何潜在的风险。基于这些专家的洞察和建议,进一步增强了GPT-4oGPT-4omini的安全性。

依托于这些经验的沉淀,OpenAI还将研究中新发现的技术应用到提升GPT-4omini安全性的工作中。在API中,GPT-4omini首次实施了指令层级化方法,这种方法有效增强了模型抗禁锢、防止提示注入以及防止系统提示泄露的能力。这种提升使得回应更加可靠,确保了在广泛应用时的更高安全性。

无双聚合系统 https://www.wushuangai.com/已支持4o mini模型
回复

举报

 
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表