本帖最后由 denny 于 2024-7-19 15:25 编辑 据悉,这款GPT-4omini将接替GPT-3.5Turbo的位置,并已在ChatGPT的免费版中正式启用。它在MMLU的表现达到了82%的高分,在LMSYS的排名中,则在聊天偏好上胜过了前代GPT-4。 GPT-4omini不仅在性能上有所提升,其成本效益同样令人印象深刻,相较于GPT-3.5Turbo,价格减少了60%,每百万输入token收费仅为15美分,每百万输出token则是60美分。 ![]() OpenAI在其官方博客中提到,GPT-4omini的问世将极大推广人工智能(AI)的应用范围,使得人工智能技术变得更加经济实惠。 GPT-4omini凭借其低成本和低延迟的特性,能够在各种任务中展现出色的性能,例如串联或并行多个模型调用(比如同时调用数个应用程序接口)、向模型输送大量的上下文信息(例如整套代码库或完整的对话历史)或是快速且实时地通过文本方式与客户进行互动(例如客户支持聊天机器人)。当前,GPT-4omini的应用程序接口能够处理文本和视觉信息,预计未来还将能够接受文本、图像、视频和音频的输入与输出。这一模型具有128K token的上下文窗口,每次请求最多可处理16K 输出token,其知识截止日期为2023年10月。得益于与GPT-4o共享的更高效的tokenizer,GPT-4omini在处理多语言文本方面更为经济有效。 这个小型模型展现了卓越的文本处理和多模态处理能力。 根据官方博客的描述,GPT-4omini在文本智能和多模态推理领域在学术基准测试上优于GPT-3.5Turbo、GeminiFlash和ClaudeHaiku,并且支持与GPT-4o相同的多语言能力。相较于GPT-3.5Turbo,GPT-4omini在处理长上下文信息时的表现也有显著提升。 目前,OpenAI已在多个重要基准测试中评估了GPT-4omini的推理认知、数学/编程能力及多模态推理能力的表现。 推理任务方面:在涉及文本和视觉元素的推理任务测试中,GPT-4omini表现出较其他小型模型更好的效果。在文本智能和推理的基准MMLU评测中,GPT-4omini的得分为82.0%,而GeminiFlash得分77.9%,ClaudeHaiku得分73.8%。数学和编码能力:在数学推理与编码任务上,GPT-4omini显现了卓越的表现,超越了市面上先前的较小型号。据MGSM评测,GPT-4omini在数学推理测试中,取得了87.0%的高分;而GeminiFlash和ClaudeHaiku的分别仅为75.5%和71.7%。在评价编码性能的HumanEval测试中,GPT-4omini同样以87.2%的分数领跑,GeminiFlash和ClaudeHaiku的得分则分别是71.5%和75.9%。 多模态推理:在多模态推理的MMMU评价中,GPT-4omini也表现优异,其得分高达59.4%,超过GeminiFlash的56.1%和ClaudeHaiku的50.2%。 ![]() 在其他方面,如从收据文件中提取结构化数据或在提供邮件线索历史时生成优质电邮回复等任务,OpenAI发现GPT-4omini的表现显著胜于GPT-3.5Turbo。 内置安全措施 关于安全性,OpenAI自预训练阶段起,已经开始屏蔽那些不希望模型学习或输出的信息。在后期训练过程中,通过采用像RLHF这样的技术,确保模型的行为与人类策略相吻合,进一步提升了模型回应的精确性与可信度。OpenAI在其GPT-4omini内置了与GPT-4o相当的安全防范措施。通过依据预备框架和自愿承诺,该公司采用自动与人工的方式对模型进行了细致的核查。超过70位来自社会心理学及误信息领域的外部专家对GPT-4o进行了深入测试,旨在识别出任何潜在的风险。基于这些专家的洞察和建议,进一步增强了GPT-4o及GPT-4omini的安全性。 依托于这些经验的沉淀,OpenAI还将研究中新发现的技术应用到提升GPT-4omini安全性的工作中。在API中,GPT-4omini首次实施了指令层级化方法,这种方法有效增强了模型抗禁锢、防止提示注入以及防止系统提示泄露的能力。这种提升使得回应更加可靠,确保了在广泛应用时的更高安全性。 无双聚合系统 https://www.wushuangai.com/已支持4o mini模型 |
推荐帖子
揭开NEO人形机器人爆火背后,比特斯拉更强的AI公司是谁?揭开NEO人形机器人爆火背后,
denny 131 看过
OpenAI七万亿芯片计划启动,挑战苹果与英伟达霸主地位
denny 102 看过
AI功能跳票,苹果秋季发布不及预期
denny 128 看过
ChatGPT免费用户破2亿,OpenAI付费业务用户达百万
denny 111 看过