LiveBench是一个专为大型语言模型(LLMs)设计的基准测试平台,旨在解决测试集污染和客观评估的问题。该平台通过提供一个公正、无污染的环境来评估模型性能,支持用户通过GitHub问...
LYi 林哥的大模型野榜:一个更适合中国宝宝体质的大模型产品排行榜
ArtificialAnalysis 是一个强大的工具,旨在为用户提供独立的AI语言模型和API提供商分析。通过理解AI领域,用户可以做出明智的决策,选择最适合其特定用例的模型和API提供商。该平台提供直观的用户界面和丰富的可视化工具,用户无需编程背景即可轻松上手,快速生成各类分析报告。
OpenCompss是一个面向大模型的开源方和使用者, 提供开源、高效、全面的大模型评测开放平台。网站包含大模型评测榜单,数据集社区,文档等专区。榜单专区包含大语言模型以及多模态大模型榜单,提供多能力维度的评分参考。数据集社区致力于打造创新性的基准测试资源专区,提供丰富的评测数据集信息。其中,Compass Arena 致力于一个完全基于用户真实反馈的公正、开放、透明的榜单。用户根据与大模型的真实对话体验进行投票,经过数据清洗和过滤后,我们利用Bradley-Terry模型估计了模型的竞技场Elo等级分数,并使用该分数对大模型进行排名。
LMSYS Org,由加州大学伯克利分校、加州大学圣地亚哥分校和卡内基梅隆大学合作创立的研究组织。该机构推出 Chatbot Arena,是一个针对大型语言模型(LLM) 的基准平台,以众包方式匿名、随机对抗测评大模型产品,其评级基于国际象棋等竞技游戏中广泛使用的 Elo 评分系统。评分结果通过用户投票产生,系统每次会随机选择两个不同的大模型机器人和用户聊天,并让用户在匿名的情况下选择哪款大模型产品的表现更好一些,整体而言相对公正。
琅琊榜,由SuperCLUE团队开发,是一个专门针对中文大模型的匿名对战竞技场。该平台采用匿名、公平的对决形式,通过用户投票来评估模型的表现,并最终生成一个中文大模型排行榜。SuperCLUE官方表示,搭建琅琊榜旨在为中文通用大模型提供一个公平、公正、开放的对抗竞技平台。