计算量、数据集大小、模型参数量大小的幂律 与 训练损失呈现 线性关系。
三个参数同时放大时,如何得到最佳的性能?
更大的模型 需要 更少的样本 就能达到相同的效果。
京公网安备 11010502049817号