HELM全称Holistic Evaluation of Language Models(语言模型整体评估)是由斯坦福大学推出的大模型评测体系,该评测方法主要包括场景、适配、指标三个模块,每次评测的运行都需要指定一个场景,一个适配模型的提示,以及一个或多个指标。它评测主要覆盖的是英语,有7个指标,包括准确率、不确定性/校准、鲁棒性、公平性、偏差、毒性、推断效率;任务包括问答、信息检索、摘要、文本分类等。
数据统计
数据评估
关于HELM特别声明
本站太极导航提供的HELM都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由太极导航实际控制,在2024年5月17日 下午5:02收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,太极导航不承担任何责任。
相关导航
Ask Youtube
AskYoutube是一个人工智能工具,允许用户询问、搜索和发现来自Youtube的内容 Discover the power of AI with AskYoutube. Instantly find answers to your queries without needing to watch all the Youtube videos. Simply type in your question and get the most accurate and concise information. AskYoutube - making video knowledge accessible at your fingertips!
暂无评论...

