meta-llama/Meta-Llama-3-8B

https://huggingface.co/meta-llama/Meta-Llama-3-8B

型号细节

Meta开发并发布了Meta Llama 3家族大型语言模型(LLM),这是一组预训练和指令微调的生成性文本模型,大小为8B和70B参数。Llama 3指令微调模型针对对话用例进行了优化,在常见的行业基准测试中表现优于许多可用的开源聊天模型。此外,在开发这些模型时,我们非常谨慎地优化了有用性和安全性。

模型开发者 Meta

变体 Llama 3有两种尺寸 - 8B和70B参数 - 预训练和指令微调变体。

输入模型只接受文本输入。

输出模型只生成文本和代码。

模型架构 Llama 3是一种自回归语言模型,使用优化的transformer架构。经过调整的版本使用监督fine-tuning(SFT)和人工反馈强化学习(RLHF)来实现有用性和安全性方面的人类偏好对齐。

模型	训练数据	参数量	上下文长度	是否使用GQA	标记计数	知识截止日期
Llama 3	新的公开在线数据组合	8B	8k	是	15T+	2023年3月
Llama 3	新的公开在线数据组合	70B	8k	是		2023年12月

Llama 3系列模型。标记计数仅指预训练数据。8B和70B版本都使用Grouped-Query Attention(GQA)来提高推理可扩展

相关阅读:
【大数据入门核心技术-Zookeeper】（三）Zookeeper的选举机制和流程
rk3568适配温控风扇
在字节做 QA 的 288 天
磁盘的分区、格式化、检验与挂载 ---- fdisk，mkfs，mount
132.OpenLDAP认证—Hue
原生js vue react通用的递归函数
儿童牙刷，U型牙刷，磨牙器亚马逊CPC认证检测标准
商城详情页的开发
红队打靶：Misdirection打靶思路详解（vulnhub）
九、Redis事务锁机制、连接池

原文地址：https://blog.csdn.net/weixin_36441033/article/details/137953172