前段时间基于OLMO 框架利用8张卡从头训练一个1B 大模型,以本文做一个简单的工作总结。SFT 微调采用LLaMA-Factory,评测使用OpenCompass 。大模型面向的任务:能写代码,能做简单的数学题。
预训练语料的数据配比主要参考现有大模型预训练数据来源及分布,数据主要来源于Dolma 数据集。其中,Dolma 数据集中中文语料比较欠缺,因而补充WuDao 中文数据集。大模型 预训练语料来源以及配比情况如下:
| 数据集 | 类型 | token数量(B) | 采样比例 |
|---|---|---|---|
| CC | 通用网页 | 19 | 2% |
| C4 | 通用网页 | 19 | 14% |
| wiki |