LiveBench大语言模型基准测试平台

LiveBench是一个专为大型语言模型（LLMs）设计的基准测试平台，旨在解决测试集污染和客观评估的问题。该平台通过提供一个公正、无污染的环境来评估模型性能，支持用户通过GitHub问题或电子邮件方式提交模型进行评测。LiveBench涵盖了多个维度的评估指标，包括全球平均分、推理平均分、编码平均分、数学平均分、数据分析平均分、语言平均分和综合因子平均分，为模型开发者提供了一个全面评估其模型能力的工具。

数据统计

相关导航

OpenCompass司南-AI大模型竞技场-排行榜

OpenCompss是一个面向大模型的开源方和使用者，提供开源、高效、全面的大模型评测开放平台。网站包含大模型评测榜单，数据集社区，文档等专区。榜单专区包含大语言模型以及多模态大模型榜单，提供多能力维度的评分参考。数据集社区致力于打造创新性的基准测试资源专区，提供丰富的评测数据集信息。其中，Compass Arena 致力于一个完全基于用户真实反馈的公正、开放、透明的榜单。用户根据与大模型的真实对话体验进行投票，经过数据清洗和过滤后，我们利用Bradley-Terry模型估计了模型的竞技场Elo等级分数，并使用该分数对大模型进行排名。

LYi 林哥的大模型野榜

LYi 林哥的大模型野榜：一个更适合中国宝宝体质的大模型产品排行榜

LMSYS-AI大模型竞技场-排行榜

LMSYS Org，由加州大学伯克利分校、加州大学圣地亚哥分校和卡内基梅隆大学合作创立的研究组织。该机构推出 Chatbot Arena，是一个针对大型语言模型（LLM）的基准平台，以众包方式匿名、随机对抗测评大模型产品，其评级基于国际象棋等竞技游戏中广泛使用的 Elo 评分系统。评分结果通过用户投票产生，系统每次会随机选择两个不同的大模型机器人和用户聊天，并让用户在匿名的情况下选择哪款大模型产品的表现更好一些，整体而言相对公正。