【小笔记】复杂模型小数据可能会造成过拟合还是欠拟合？

【学而不思则罔，思而不学则殆】
10.8
在这里插入图片描述

针对这个问题，我先问了一下文心一言
在这里插入图片描述
它回答了为什么会过拟合和欠拟合，但并没有回答我给的场景。

简单分析

分析模型
复杂模型就表示模型的拟合能力很强，对于数据中特征（包括错误数据的特征）能够学习到，因此容易产生过拟合现象而不是欠拟合。
而简单模型拟合能力弱，上限低，就容易产生欠拟合。
分析数据
小数据意味着数据量较少，这里面可能有两层情况，一是数据量少且特征简单，比如手写数字数据集，此时意味着数据的特征不是很复杂，模型容易学习。另一种是数据量少但特征复杂，比如复杂的道路场景图片，少量的样本很难覆盖足够的场景特征。

因此这个问题要更具数据背后的场景而分别讨论：

简单场景
此场景下，小数据可能能够覆盖场景下的数据特征，此时复杂模型能够很好的对数据特征进行拟合，包括噪声数据的特征，而导致过拟合。可以通过减少复杂模型的迭代次数或复杂度来防止过拟合。正则化、earlystop是常用的手段。
复杂场景
此时复杂模型对于场景的特征子集能够很好的拟合，但在预测特征子集以外的样本时，泛化能力比较差，也就是过拟合，本质原因是训练时的数据不能代表预测时的数据（即样本分布不一致）。此时通过减少模型训练的迭代次数不管用，而是要**考虑增加训练数据（特别是特征子集以外的数据）或将训练数据转换为与预测阶段数据分布相一致。**使样本数据能够代表预测场景，换句话说保持训练和预测阶段的数据分布一致。

复杂模型小数据会导致过拟合，而根据小数据场景特征的不同，导致过拟合的原因不同，应该分别对待。对于简单数据需要减少模型迭代次数（即earlystop）或更换更小的模型（如模型层数）或减少模型复杂度（如dropout）；对于复杂数据，这需要增加更多的新数据，是数据能够尽量覆盖全场景特征。

1.简单模型小数据，可能会出现过拟合还是欠拟合？
2.简单模型大数据量，可能会出现过拟合还是欠拟合？
3.复杂模型大数据，可能会出现过拟合还是欠拟合？

看到一句很简练的话放在这里：

过拟合的本质原因是模型过度学习到了数据中的“统计噪声”

相关阅读:
codeforces：E. Madoka and The Best University【因数list + 分析拆解 + 公因数特性 + 欧拉函数】
fdbus之CFdbSession类
操作系统第三周
“华为杯”研究生数学建模竞赛2019年-【华为杯】F题：智能飞行器航迹规划模型（附优秀论文及Pyhton代码实现）
SpringBoot
外卖项目08---Linux
nuxt3+ts：集成百度-爱番番客服
宅在家这段时间，阿里资深架构师带你学习月薪60K的高薪技术：RPC
HPC集群自动弹性扩缩的两种实现方式
linux--进程3)

原文地址：https://blog.csdn.net/xiangxiang613/article/details/133063894