最新AI模型评测:ChatGPT-4o-latest重夺LMSYS第一,超越Gemini 1.5 Pro

2024-08-14
185看过

在上周公布的Gemini 1.5 Pro模型之后,它在伯克利大学主导团队LMSYS组织的Chatbot Arena中荣获首位,Google公司获得了短暂的辉煌。然而,OpenAI不甘落后,迅速出击,推出了其最新的chatgpt-4o-latest模型,并成功夺回了领先位置。


就在上周,OpenAI发布了其gpt-4o-2024-08-06版本,这一版本增强了API的支持,使其能够提供结构化的输出。继此之后,OpenAI又推出了一个名为chatgpt-4o-latest的前沿模型。这款模型是GPT-4o的最新迭代,具备高达128000个词元的上下文窗口输入能力和最多16384个词元的输出能力。


至于Chatbot Arena,则是由位于伯克利的LMSYS Org组织推出的一个基准平台,专门针对大型语言模型的性能进行测试和评估。该平台运用匿名及随机的方式,让不同的巨型算法自由展开较量,借鉴国际象棋等竞技游戏中普遍采用的Elo评分系统,通过用户的投票来决定得分。在每次对话中,系统会随机匹配两个不同的巨型模型与用户进行对话。基于用户的选择,这些模型的表现好坏将被评定,并以积分的形式,更新在首页的排行榜中显示。


最新排名公示如下:

h1.png


通过GoogleGemini 1.5 Pro模型,在上周以1297分的高分首次荣登榜首,位居LMSYS的聊天机器人竞技场之冠。


OpenAI最新的chatgpt-4o-latest模型,则以1314分的惊人成绩重新夺回了竞技场的领先位置。


得分细则显示,新版的ChatGPT-4o在编程、遵循指令及解决复杂提示方面均有突出表现,相关的具体分数如下所示:


总体排名:第一


数学能力:并列第一


编程能力:第一名


解析复杂提示:第一名


遵循指令:第一名


应对长篇询问:第一名


多轮对话:第一名


回复

举报

 
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表