深度学习理论（李宏毅

more parameters, easier to overfit, why?

但是怎么定这个有未知数的function呢、那通常假设你没有什么想法的话、往往你需要先对你的资料做一些观察、想象一下，假设有一个function可以成功的分类宝可梦跟数码宝贝、那这个function它应该长什么样子

所以，开始进行机器学习之前，也许我们先对资料进行一些观察。

好在经过一番观察以后。我发现他们虽然长得很像，但其实还是有显著差异：画风不同

很多package呢可以帮你把一个图片里面的线呢把它画出来。细节不重要，总之扣一个library自动会产生这种边线的图

那怎么知道一张图片的边线比较简单还是复杂呢？算一下图里白色的pixel有多少

e函数代表，线条的复杂程度

func. f只有一个未知参数h

这个func. f完全可以一般化到更复杂的情景，比如 h可以换成之前录音里讲过的θ

未知参数所有的可能性集合起来叫 H，他的可能性是你自己决定的，这里我们假设说做完边缘探测后白色点的数目不会超过1万，这里不需要考虑小数点

|H| 在H里有多少可能的选择，这个数叫做模型的复杂程度

模型的复杂程度很高，代表说他现在定出来的这个含有未知数的func.里面，选择性很多

接下来我们来定loss，

首先要有资料, loss是根据资料计算出来的，

给一个h，根据某一组dataset来计算loss

训练资料集，有个假设，训练资料集里的每一笔资料，是从一个更大的资料里被sample出来的，sample的过程有一个限制叫i.i.d.，独立同分布，即 sample每一笔资料时每笔之间是independent，每次sample时分布永远是固定的，

有了D(train)之后，就可以找出一个h，让用Dtrain所计算出的loss值越小越好

期待理想和现实越接近越好，理想是找到一个h(all)，用在D(all)上得到一个loss

h(train)和h(all)显然不同，因为是从不同的资料里找出来的，他们要minimize的loss func.是不一样的，loss func.不只是和h有关，也和define这个loss func.的资料有关

h(all)是D(all)上最好的h，

h(

相关阅读:
算法（第4版）练习题 1.1.27 的三种解法
机器学习:在线学习和离线学习区别
JDBC操作SQLite的工具类
ECG-Emotion Recognition（情绪识别）-- 数据集介绍WESAD&DREAMER
单片机判断语句与位运算的坑
GBASE 8s事务配置参数
AlmaLinux 经济收益增加，红帽 RHEL 源码限制不成威胁
京东技术专家的修炼之道|“六边形战士”周默分享
【滤波跟踪】基于扩展卡尔曼滤波的无人机路径跟踪附matlab代码
CREO：CREO软件之装配设计界面的简介、装配图设计流程、案例应用(图文教程)之详细攻略

原文地址：https://blog.csdn.net/linyuxi_loretta/article/details/127327104