Rasa 3.x 学习系列-Benchmarking Language Models

从字面上看，基准测试是进行测量的标准参考点。在 AI 中，基准是一个集体数据集，由资金充足的大学的行业和学术团体开发，社区已经同意用它来衡量模型的性能。例如，SNLI 是 570k条人工编写的英语句子对的集合，这些句子对被手动标记为平衡分类，标签为蕴含、矛盾和中性，用于衡量自然语言推理任务的性能。

近年来，BERT 预训练语言模型对于上下文 NLU 自然语言理解是革命性的，在推理、情感相似性、实体提取等 NLP 任务上取得出色的效果。衡量语言的性能是非常重要的，更面向应用程序，越来越多地从单任务转移到多任务，多任务基准的示例是 GLUE/BLUE 基准。

近期，在数据集上，模型的表现越来越好于人类，比如AlphaGo击败世界冠军， MNIST花了15年的时间来超过人类，而GLUE只花了一年时间，从而导致基准测试饱和
在这里插入图片描述
基准饱和度随时间变化，初始性能和人类性能分别归一化为 -1 和 0 (Kiela et al., 2021)。

在基准任务上超过人类性能的模

相关阅读:
通义灵码-ai编码
若依前后端分离版获取部门表所有最子级部门并匹配部门名称生成excel
Django 入门学习总结9-第三方包的使用
huggingface下大模型最好的方案
亿级异构任务调度框架设计与实践
kafka消费者模式
拓世法宝AI智能直播一体机，快速搭建品牌矩阵，开启扩张新里程
FastJson2中FastJsonHttpMessageConverter找不到类问题
入门力扣自学笔记193 C++ （题目编号：1668）
理论第十一课——字符串

原文地址：https://blog.csdn.net/duan_zhihua/article/details/126921673