在上周公布的Gemini 1.5 Pro模型之后,它在伯克利大学主导团队LMSYS组织的Chatbot Arena中荣获首位,Google公司获得了短暂的辉煌。然而,OpenAI不甘落后,迅速出击,推出了其最新的chatgpt-4o-latest模型,并成功夺回了领先位置。 就在上周,OpenAI发布了其gpt-4o-2024-08-06版本,这一版本增强了API的支持,使其能够提供结构化的输出。继此之后,OpenAI又推出了一个名为chatgpt-4o-latest的前沿模型。这款模型是GPT-4o的最新迭代,具备高达128000个词元的上下文窗口输入能力和最多16384个词元的输出能力。 至于Chatbot Arena,则是由位于伯克利的LMSYS Org组织推出的一个基准平台,专门针对大型语言模型的性能进行测试和评估。该平台运用匿名及随机的方式,让不同的巨型算法自由展开较量,借鉴国际象棋等竞技游戏中普遍采用的Elo评分系统,通过用户的投票来决定得分。在每次对话中,系统会随机匹配两个不同的巨型模型与用户进行对话。基于用户的选择,这些模型的表现好坏将被评定,并以积分的形式,更新在首页的排行榜中显示。 最新排名公示如下: ![]() 通过Google的Gemini 1.5 Pro模型,在上周以1297分的高分首次荣登榜首,位居LMSYS的聊天机器人竞技场之冠。 而OpenAI最新的chatgpt-4o-latest模型,则以1314分的惊人成绩重新夺回了竞技场的领先位置。 得分细则显示,新版的ChatGPT-4o在编程、遵循指令及解决复杂提示方面均有突出表现,相关的具体分数如下所示: 总体排名:第一 数学能力:并列第一 编程能力:第一名 解析复杂提示:第一名 遵循指令:第一名 应对长篇询问:第一名 多轮对话:第一名 |
推荐帖子
揭开NEO人形机器人爆火背后,比特斯拉更强的AI公司是谁?揭开NEO人形机器人爆火背后,
denny 131 看过
OpenAI七万亿芯片计划启动,挑战苹果与英伟达霸主地位
denny 102 看过
AI功能跳票,苹果秋季发布不及预期
denny 128 看过
ChatGPT免费用户破2亿,OpenAI付费业务用户达百万
denny 111 看过