• 神经网络(一)基本概念


    一、概率论基本概念

            ①概率:随机事件发生的可能性大小,介于0-1之间

            ②随机变量:可能发生的事件,称为X

            ③概率分布:一个随机变量X取每种可能值的概率(总和为1)

            ④离散随机变量

                    伯努利分布:X为事件A出现的次数,事件A发生的概率为μ,不发生的概率为1-μ

                            分布公式为:p(x)=\mu ^x(1-\mu)^{(1-x)}

                    二项分布:n次伯努利分布中,X表示A出现的次数,

                            分布公式为:P(X=k)=_{k}^{n} \mu^k(1-\mu)^{n-k} ,      k=1...,n

            ⑤连续随机变量:一般采用概率密度函数来描述

                    \int_{-\infty}^{+\infty}p(x)dx=1

                    高斯分布X~N(\mu,\sigma ^2)   p(x) = \frac{1}{\sqrt{2\pi }\sigma }exp(-\frac{(x-\mu)^2}{2\sigma^2})

            ⑥累积分布函数:随机变量X的取值小于等于x的概率

                    cdf(x) = P(X≤x)        cdf(x)=\int_{-\infty }^{x}p(t)dt

            ⑦随机向量:一组随机变量构成的向量

                联合概率分布P(X_1=x_1,X_2=x_2...X_k=x_k)=p(x_1,x_2...,x_k)

                条件概率:对于离散随机向量(X,Y),已知X=x时,Y=y的条件概率

                    p(y|x)=P(Y=y|X=x)=\frac{p(x,y)}{p(x)}

            ⑧采样:给定一个概率分布p(x),生成满足条件的样本

            如何进行采样

                    1.直接采样均匀分布->线性同余发生器:x_(t+1)=(\alpha x_t+c)mod(m)

                    2.间接采样:仅均匀分布能直接采样,其他的都是通过间接采样

            ⑨期望:随机变量的均值

                    离散变量E[X]=\sum_{n=1}^{N}x_np(x_n)

                    连续随机变量E[X]=\int_{R}^{}xp(x)dx

            ⑩大数定律:样本数量很大的时候,样本均值和真实均值(期望)充分接近

    二、机器学习的定义

            通过算法使机器从大量数据中学习规律从而对新的样本做决策

     三、机器学习的类型

            1.监督学习

                    包含了回归问题(连续)和分类问题(离散)

            2.无监督学习

                    包含三种方法类聚降维密度估计

            3.强化学习

                    通过与环境的交互来进行学习(例如阿尔法狗),属于无监督学习

            4.总结

     四、机器学习的要素

            机器学习的四要素:数据模型学习准则优化算法

            1.模型

                    ​​​​​​​        

            2.学习准则

                    好的模型在所有取值上应与真实映射函数一致

                             |f(x,\theta ^*)-y|<\varepsilon

                    损失函数:非负的实数函数,用以量化模型预测和真实标签之间的差异

                            以回归问题为例:平方损失函数

            ​​​​​​​        ​​​​​​​        L(y,f(x;\theta ))=\frac{1}{2}(y-f(x;\theta))^2

                    期望风险损失函数真实数据分布下的期望

                            R(\theta )=E_{(x,y)~p_r(x,y)}[L(y,f(x;\theta))]

                            由大数定律可知,在N区域无穷时,期望风险可以近似为经验风险

                    经验风险:由训练数据推算而来

                            R_{D}^{emp}(\theta )=\frac{1}{N}\sum_{n=1}^{N}L(y^n,f(x^n;\theta ))
                            机器学习目的是寻找参数\theta^*,使得经验风险函数最小化

            3.优化算法

                    机器学习问题通过经验风险转变为一个最优化问题

                    ①导数法:令函数一阶导=0,求极值点

                    ②梯度下降法:是一种迭代算法

                             搜索步长α也可称为学习率

                            学习率为一种超参数,需要人工选择。学习率的选择极为重要,不能过大/过小

                          ②-1:随机梯度下降法:在每次迭代时只采集一个样本,当经过足够次数的迭代时,也可以收敛到一个局部最优解。

                            优点:每次计算开销小,支持在线学习

                            缺点:无法充分利用计算机的并行算法

                          ②-2:小批量随机梯度下降法:随机选取一小部分训练样本来计算梯度并更新参数

    五、泛化和正则化

            机器学习拟合中可能出现的问题:欠拟合过拟合

             机器学习≠优化(期望风险≠经验风险

            1.泛化误差

                    g_D(f)=R(f)-R_{D}^{emp}(f)        (期望风险经验风险的差值)

            2.正则化

                    降低模型复杂度以减少泛化误差

                    所有损害优化的方法

                            如:增加约束(L1/L2优化、数据增强)

                                   干扰优化过程(权重衰减、随机梯度下降、提前停止)

                                            提前停止:使用一个验证集,每次迭代后使用参数在验证集上进行测试,如错误率不再下降则停止迭代

  • 相关阅读:
    python 打包可执行文件-pyinstaller详解
    Siddhi cep
    【Overload游戏引擎细节分析】视图投影矩阵计算与摄像机
    小米路由器青春版R1CL刷入OpenWrt
    create-react-app创建Electron应用,打包
    DM3730 uboot 分析
    Stable Diffusion插件(翻译)
    加密货币熊市导致收入骤降,穆迪将Coinbase降级
    Java实现桥接模式(设计模式 五)
    Redis内存回收
  • 原文地址:https://blog.csdn.net/weixin_37878740/article/details/126340642