Mistral 7B 比Llama 2更好的开源大模型（三）

Mistral 7B 比Llama 2更好的开源大模型
Mistral 7B是一个70亿参数的语言模型，旨在获得卓越的性能和效率。Mistral 7B在所有评估的基准测试中都优于最好的开放13B模型（Llama 2），在推理、数学和代码生成方面也优于最好的发布34B模型（Llama 1）。Mistral 7B模型利用分组查询注意力（GQA）进行更快的推理，再加上滑动窗口注意力（SWA），在降低推理成本的情况下有效处理任意长度的序列。

本文学习分组查询注意力（GQA）的论文： GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints
论文链接：
https://arxiv.org/abs/2305.13245

在这里插入图片描述

摘要

只使用单个键值头的多查询注意力（MQA）大大加快了解码器推理的速度。然而，MQA可能会导致质量下降，而且更严重的是，为了更快的推理而训练单独的模型可能是不可取的。论文（1）提出了一种使用5%的原始预训练计算将现有的多头语言模型检查点升级为具有MQA的模型的方法，以及（2）引入分组查询注意力（GQA），这是多查询注意力的一种推广，它使用中间数量（多于一个，少于查询头的数量）的键值

相关阅读:
Qt文件 I/O 操作
第二证券|超300家机构关注两大赛道龙头，透露市场增长及发展方向
前后端分离同步/异步实现文件上传(boot+vue+elementUI)
Springboot+dubbo框架升级踩坑记
002 OpenCV dft 傅里叶变换
自适应分组多级并发框架
Spring Boot配置多个Kafka数据源
达梦数据库[-70028]:Create SOCKET connection failure
CSS 文字特效运用目录
LeetCode 1408. 数组中的字符串匹配

原文地址：https://blog.csdn.net/duan_zhihua/article/details/134439073

Mistral 7B 比Llama 2更好的开源大模型 （三）

摘要

Mistral 7B 比Llama 2更好的开源大模型（三）