Hugging Face | 太极导航

Open LLM Leaderboard 是最大的大模型和数据集社区 HuggingFace 推出的开源大模型排行榜单，基于 Eleuther AI Language Model Evaluation Harness（Eleuther AI语言模型评估框架）封装。

由于社区在发布了大量的大型语言模型（LLM）和聊天机器人之后，往往伴随着对其性能的夸大宣传，很难过滤出开源社区取得的真正进展以及目前的最先进模型。因此，Hugging Face 使用 Eleuther AI语言模型评估框架对模型进行四个关键基准测试评估。这是一个统一的框架，用于在大量不同的评估任务上测试生成式语言模型。

Open LLM Leaderboard 的评估基准

AI2 推理挑战（25-shot）：一组小学科学问题
HellaSwag（10-shot）：一个测试常识推理的任务，对人类来说很容易（大约95%），但对SOTA模型来说具有挑战性。
MMLU（5-shot）- 用于测量文本模型的多任务准确性。测试涵盖57个任务，包括基本数学、美国历史、计算机科学、法律等等。
TruthfulQA（0-shot）- 用于测量模型复制在在线常见虚假信息中的倾向性。

数据统计

数据评估

Hugging Face浏览人数已经达到11,611，如你需要查询该站的相关权重信息，可以点击"5118数据""爱站数据""Chinaz数据"进入；以目前的网站数据参考，建议大家请以爱站数据为准，更多网站价值评估因素如：Hugging Face的访问速度、搜索引擎收录以及索引量、用户体验等；当然要评估一个站的价值，最主要还是需要根据您自身的需求以及需要，一些确切的数据则需要找Hugging Face的站长进行洽谈提供。如该站的IP、PV、跳出率等！

特别声明

本站太极导航提供的Hugging Face都来源于网络，不保证外部链接的准确性和完整性，同时，对于该外部链接的指向，不由太极导航实际控制，在2024年5月17日下午5:57收录时，该网页上的内容，都属于合规合法，后期网页的内容如出现违规，可以直接联系网站管理员进行删除，太极导航不承担任何责任。

太极导航致力于优质、实用的网络站点资源收集与分享！本文地址https://www.tjzoo.com/sites/1495.html转载请注明

相关导航

Devv-AI搜索引擎

Devv - The next generation AI search engine for developers. Solve your programming problems in seconds.

Robot Spirit Guide

Unlock the secrets of religious books with Robot Spirit Guide. Ask questions and get detailed answers from the perspective of the text.

法行宝

法行宝-您的免费AI律师

SuperCLUE

中文通用大模型综合性测评基准

Flowith-AI搜索引擎

Interact with the world's most powerful AI in a way from the future flowith is an AI productivity tool powered by GPT-4o. Through innovative interaction, it allows you to collaborate smoothly with AI, with ideas flowing like a vibrant spring.

博查-AI搜索引擎

博查是一个无广告干扰的答案引擎。您可以用自然语言提问，它会理解问题、细分检索并生成准确的答案。

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...