• #机器学习--补充数学基础--概率论


    引言

            本系列博客旨在为机器学习(深度学习)提供数学理论基础。因此内容更为精简,适合二次学习的读者快速学习或查阅。


    1、概率分布

            定义:
            1)随机变量是可以随机地取不同值的变量,我们通常使用无格式字体中的小写字母,如 x,y \text{x,y} x,y 来表示随机变量本身,而用手写体中的小写字母,如 x , y x,y x,y 来表示随机变量能够取到的值,即一个可能的取值。概率分布用来描述随机变量或一簇随机变量在每一个可能取到的状态的可能性大小。

            2)离散型随机变量的概率分布可以用概率质量函数(probability mass function,PMF)来描述,通常用大写字母 P P P 来表示,PMF将随机变量能够取到的每个状态映射到随机变量取得该状态的概率,例如 x = x \text{x}=x x=x 的概率用 P ( x = x ) P(\text{x}=x) P(x=x) 来表示,当上下文可以明确时,可以简写为 P ( x ) P(x) P(x)

            3)连续型随机变量的概率分布可以用概率密度函数(probability density function,PDF)来描述,通常用小写字母 p p p 来表示。

            4)PMF和PDF可以同时作用于多个随机变量,此时称为联合概率分布,例如 P ( x = x , y = y ) P(\text{x}=x,\text{y}=y) P(x=x,y=y) 表示 x = x \text{x}=x x=x y = y \text{y}=y y=y 同时发生的概率,可以简写为 P ( x , y ) P(x,y) P(x,y)

            5)当我们知道了一组变量的联合概率分布,但想要了解其中一个子集的概率分布,这种定义在子集上的概率分布被称为边缘概率分布,对于离散型变量,即 ∀ x ∈ x , P ( x = x ) = ∑ y P ( x = x , y = y ) \forall x\in\text{x},P(\text{x}=x)=\sum_{y}P(\text{x}=x,\text{y}=y) xx,P(x=x)=yP(x=x,y=y)        对于连续型变量,即 p ( x ) = ∫ p ( x , y ) d y p(x)=\int p(x,y)dy p(x)=p(x,y)dy

            6)设有随机变量 x,y \text{x,y} x,y ,在 x = x \text{x}=x x=x 的前提下随机变量 y = y \text{y}=y y=y 的概率叫做条件概率,记作 P ( y = y ∣ x = x ) = P ( x = x , y = y ) P ( x = x ) P(\text{y}=y|\text{x}=x)=\frac{P(\text{x}=x,\text{y}=y)}{P(\text{x}=x)} P(y=yx=x)=P(x=x)P(x=x,y=y)

            定理:
            条件概率的链式法则,任何多维随机变量的联合概率分布,都可以分解成只有一个变量的条件概率相乘的形式: P ( x 1 , … , x n ) = P ( x 1 ) ∏ i = 2 n P ( x i ∣ x 1 , … , x i − 1 ) P(\text{x}^{1},\dots,\text{x}^{n})=P(\text{x}^{1})\prod_{i=2}^{n}P(\text{x}^{i}|\text{x}^{1},\dots,\text{x}^{i-1}) P(x1,,xn)=P(x1)i=2nP(xix1,,xi1)


    2、独立性和条件独立性

            1)如果两个随机变量 x \text{x} x y \text{y} y 的概率分布可以表示成两个因子的乘积形式,并且一个因子只包含 x \text{x} x ,另一个因子只包含 y \text{y} y ,我们就称这两个随机变量是相互独立的,即 ∀ x ∈ x , y ∈ y , p ( x = x , y = y ) = p ( x = x ) p ( y = y ) \forall x\in\text{x},y\in\text{y},p(\text{x}=x,\text{y}=y)=p(\text{x}=x)p(\text{y}=y) xx,yy,p(x=x,y=y)=p(x=x)p(y=y)

            2)如果关于 x \text{x} x y \text{y} y 的条件概率分布对于 z z z 的每一个值都可以写成乘积的形式,那么这两个随机变量 x \text{x} x y \text{y} y 在给定随机变量 z z z 时是条件独立的,即 ∀ x ∈ x , y ∈ y , z ∈ z , p ( x = x , y = y ∣ z = z ) = p ( x = x ∣ z = z ) p ( y = y ∣ z = z ) \forall x\in\text{x},y\in\text{y},z\in\text{z},p(\text{x}=x,\text{y}=y|\text{z}=z)=p(\text{x}=x|\text{z}=z)p(\text{y}=y|\text{z}=z) xx,yy,zz,p(x=x,y=yz=z)=p(x=xz=z)p(y=yz=z)


    3、期望、方差和协方差

            1)函数 f ( x ) f(x) f(x) 关于某分布 P ( x ) P(\text{x}) P(x)期望是指,当 x x x P P P 产生, f f f 作用于 x x x 时, f ( x ) f(x) f(x) 的平均值,对于离散型随机变量,期望可表示为: E x ∼ P [ f ( x ) ] = ∑ x P ( x ) f ( x ) E_{x\sim P}[f(x)]=\sum_{x}P(x)f(x) ExP[f(x)]=xP(x)f(x)        对于连续性随机变量,期望可表示为: E x ∼ p [ f ( x ) ] = ∫ p ( x ) f ( x ) d x E_{x\sim p}[f(x)]=\int p(x)f(x)dx Exp[f(x)]=p(x)f(x)dx

            2)方差衡量的是当我们对 x x x 依据它的概率分布进行采样时,随机变量 x \text{x} x 的函数值会呈现多大的差异,即 V a r ( f ( x ) ) = E [ ( f ( x ) − E [ f ( x ) ] ) 2 ] Var(f(x))=E\left [ (f(x)-E[f(x)])^{2}\right] Var(f(x))=E[(f(x)E[f(x)])2]

            3)协方差在某种意义上给出了两个变量线性相关性的强度以及这些变量的尺度,即 C o v ( f ( x ) , g ( y ) ) = E [ ( f ( x ) − E [ f ( x ) ] ) ( g ( y ) − E [ g ( y ) ] ) ] Cov(f(x),g(y))=E\left[ (f(x)-E[f(x)])(g(y)-E[g(y)])\right] Cov(f(x),g(y))=E[(f(x)E[f(x)])(g(y)E[g(y)])]

            3)随机向量 x ∈ R n x\in R^{n} xRn协方差矩阵是一个 n ∗ n n*n nn 的矩阵,即 C o v ( x ) i , j = C o v ( x i , x j ) Cov(x)_{i,j}=Cov(x_{i},x_{j}) Cov(x)i,j=Cov(xi,xj) ,协方差矩阵的对角元是方差,即 C o v ( x i , x i ) = V a r ( x i ) Cov(x_{i},x_{i})=Var(x_{i}) Cov(xi,xi)=Var(xi)


    4、贝叶斯规则

            如果已知 P ( y ∣ x ) P(\text{y}|\text{x}) P(yx) P ( x ) P(\text{x}) P(x) ,需要计算 P ( x ∣ y ) P(\text{x}|\text{y}) P(xy) 时,可以使用贝叶斯规则,即 P ( x ∣ y ) = P ( x ) P ( y ∣ x ) P ( y ) P(\text{x}|\text{y})=\frac{P(\text{x})P(\text{y}|\text{x})}{P(\text{y})} P(xy)=P(y)P(x)P(yx)        其中 P ( y ) = ∑ x P ( y ∣ x ) P ( x ) P(\text{y})=\sum_{x}P(\text{y}|\text{x})P(x) P(y)=xP(yx)P(x)


    5、常用概率分布

            1)Bernoulli分布是单个二值随机变量的分布,它由单个参数 ϕ ∈ [ 0 , 1 ] \phi\in[0,1] ϕ[0,1] 控制, ϕ \phi ϕ 给出了随机变量等于 1 1 1 的概率,具有如下性质: P ( x = 1 ) = ϕ P(\text{x}=1)=\phi P(x=1)=ϕ P ( x = 0 ) = 1 − ϕ P(\text{x}=0)=1-\phi P(x=0)=1ϕ P ( x = x ) = ϕ x ( 1 − ϕ ) 1 − x P(\text{x}=x)=\phi^{x}(1-\phi)^{1-x} P(x=x)=ϕx(1ϕ)1x E x [ x ] = ϕ E_{\text{x}}[\text{x}]=\phi Ex[x]=ϕ V a r x ( x ) = ϕ ( 1 − ϕ ) Var_{\text{x}}(\text{x})=\phi(1-\phi) Varx(x)=ϕ(1ϕ)
            2)Multinoulli分布又称范畴分布,是指在具有 k k k 个不同状态的单个离散型随机变量上的分布,其中 k k k 是一个有限值。Multinoulli分布由向量 p ∈ [ 0 , 1 ] k − 1 p\in[0,1]^{k-1} p[0,1]k1 参数化,其中每一个分量 p i p_{i} pi 表示第 i i i 个状态的概率,最后的第 k k k 个状态的概率可以通过 1 − 1 T p 1-1^{T}p 11Tp 给出。

            3)高斯分布又称正态分布,由两个参数 μ ∈ R \mu\in R μR σ ∈ ( 0 , ∞ ) \sigma\in(0,\infty) σ(0,) 控制,其中参数 μ \mu μ 给出了中心峰值的坐标,这也是分布的均值: E [ x ] = μ E[\text{x}]=\mu E[x]=μ 。分布的标准差用 σ \sigma σ 表示,方差用 σ 2 \sigma^{2} σ2 表示,表达式如下 ℵ ( x ; μ , σ 2 ) = 1 2 π σ 2 e x p ( − 1 2 σ 2 ( x − μ ) 2 ) \aleph(x;\mu,\sigma^{2})=\sqrt{\frac{1}{2\pi\sigma^{2}}}exp\left(-\frac{1}{2\sigma^{2}}(x-\mu)^{2}\right) (x;μ,σ2)=2πσ21 exp(2σ21(xμ)2)
            4)指数分布和Laplace分布,在深度学习中,我们经常会需要一个在 x = 0 x=0 x=0 点处取得边界点的分布,为了实现这一目的,我们可以使用指数分布,即 p ( x ; λ ) = λ 1 x ≥ 0 e x p ( − λ x ) p(x;\lambda)=\lambda 1_{x\ge0}exp(-\lambda x) p(x;λ)=λ1x0exp(λx)        指数分布用指示函数 1 x ≥ 0 1_{x\ge0} 1x0 来使当 x x x 取负值时的概率为零。
            一个联系紧密的概率分布是Laplace分布,它允许我们在任意一点 μ \mu μ 处设置概率质量的峰值,即 L a p l a c e ( x ; μ , γ ) = 1 2 γ e x p ( − ∣ x − μ ∣ γ ) Laplace(x;\mu,\gamma)=\frac{1}{2\gamma}exp\left(-\frac{|x-\mu|}{\gamma}\right) Laplace(x;μ,γ)=2γ1exp(γxμ)
            5)Dirac分布和经验分布,有时候,我们希望概率分布中的所有质量都集中在一个点上,可以通过Dirac delta 函数 δ ( x ) \delta(x) δ(x) 定义概率密度函数来实现: p ( x ) = δ ( x − μ ) p(x)=\delta(x-\mu) p(x)=δ(xμ) 。Dirac分布经常作为经验分布的一个组成部分出现: p ^ ( x ) = 1 m ∑ i = 1 m δ ( x − x i ) \hat{p}(x)=\frac{1}{m}\sum_{i=1}^{m}\delta(x-x^{i}) p^(x)=m1i=1mδ(xxi)


    6、常用函数的有用性质

            1)logistic sigmoid函数常用来产生Bernoulli分布中的参数 ϕ \phi ϕ,因为它的范围是 ( 0 , 1 ) (0,1) (0,1) ,处在 ϕ \phi ϕ 的有效范围内,其表达式如下 σ ( x ) = 1 1 + e x p ( − 1 ) \sigma(x)=\frac{1}{1+exp(-1)} σ(x)=1+exp(1)1
            2)softplus函数,它是函数 x + = m a x ( 0 , x ) x^{+}=max(0,x) x+=max(0,x) 的平滑形式,表达式如下 ζ ( x ) = l o g ( 1 + e x p ( x ) ) \zeta(x)=log(1+exp(x)) ζ(x)=log(1+exp(x))

  • 相关阅读:
    点成动态 | 点成生物参加第五届微流控技术应用创新论坛
    python3 中调用 C 语言的函数
    Win10 搭建FTP服务器
    操作系统知识学习——操作系统的特征、功能和结构设计简析
    nginx限流 漏桶与令牌桶
    RadSegNet: A Reliable Approach to Radar Camera Fusion 论文笔记
    Qt creator day3练习
    ArcGIS教程(02):创建多模式网络数据集
    [Linux](5)gcc编译、gdb调试、make/makefile项目自动化构建工具、进度条小程序
    从Clickhouse 到 Snowflake: 云原生
  • 原文地址:https://blog.csdn.net/qq_43519779/article/details/126230103