最新AI模型评测：ChatGPT-4o-latest重夺LMSYS第一，超越Gemini 1.5 Pro

2024-08-14

185看过

在上周公布的Gemini 1.5 Pro模型之后，它在伯克利大学主导团队LMSYS组织的Chatbot Arena中荣获首位，Google公司获得了短暂的辉煌。然而，OpenAI不甘落后，迅速出击，推出了其最新的chatgpt-4o-latest模型，并成功夺回了领先位置。

就在上周，OpenAI发布了其gpt-4o-2024-08-06版本，这一版本增强了API的支持，使其能够提供结构化的输出。继此之后，OpenAI又推出了一个名为chatgpt-4o-latest的前沿模型。这款模型是GPT-4o的最新迭代，具备高达128000个词元的上下文窗口输入能力和最多16384个词元的输出能力。

至于Chatbot Arena，则是由位于伯克利的LMSYS Org组织推出的一个基准平台，专门针对大型语言模型的性能进行测试和评估。该平台运用匿名及随机的方式，让不同的巨型算法自由展开较量，借鉴国际象棋等竞技游戏中普遍采用的Elo评分系统，通过用户的投票来决定得分。在每次对话中，系统会随机匹配两个不同的巨型模型与用户进行对话。基于用户的选择，这些模型的表现好坏将被评定，并以积分的形式，更新在首页的排行榜中显示。

最新排名公示如下：

通过Google的Gemini 1.5 Pro模型，在上周以1297分的高分首次荣登榜首，位居LMSYS的聊天机器人竞技场之冠。

而OpenAI最新的chatgpt-4o-latest模型，则以1314分的惊人成绩重新夺回了竞技场的领先位置。

得分细则显示，新版的ChatGPT-4o在编程、遵循指令及解决复杂提示方面均有突出表现，相关的具体分数如下所示：

总体排名：第一

数学能力：并列第一

编程能力：第一名

解析复杂提示：第一名

遵循指令：第一名

应对长篇询问：第一名

多轮对话：第一名

最新AI模型评测：ChatGPT-4o-latest重夺LMSYS第一，超越Gemini 1.5 Pro

推荐帖子

揭开NEO人形机器人爆火背后，比特斯拉更强的AI公司是谁？揭开NEO人形机器人爆火背后，

OpenAI七万亿芯片计划启动，挑战苹果与英伟达霸主地位

AI功能跳票，苹果秋季发布不及预期

ChatGPT免费用户破2亿，OpenAI付费业务用户达百万