深度学习笔记---学习预备知识

加油❤🤞💕

1 引言

1.1 基本概念

机器学习：从原始数据中提取模式的能力
机器学习算法的性能很大程度上依赖于给定数据的表示。
表示学习：使用机器学习来发掘表示自身，而不仅仅把表示映射到输出
深度学习：通过简单的表示来表达复杂表示，解决学习中的核心问题

1.2 深度学习的趋势

深度学习的成就在于强化学习领域的扩展。

2 线性代数

2.1 基本概念

张量：一个数组中的元素分布在若干维坐标的规则网络中
线性相关
线性无关：如果一组向量中的任意一个向量都不能表示成其他向量的线性组合
奇异的：列向量线性相关的方阵

2.2 范数

范数函数：是具有“长度”概念的函数。在线性代数、泛函分析及相关的数学领域，范数是一个函数，是矢量空间内的所有矢量赋予非零的正长度或大小。半范数可以为非零的矢量赋予零长度。
范数是将向量映射到非负值的函数
欧几里得范数：p = 2
最大范数

2.3 特征分解

将矩阵分解成一组特征向量和特征值
N 维非零向量 v 是 N×N 的矩阵 A 的特征向量，当且仅当下式成立：

在这里插入图片描述
其中 λ 为一标量，称为 v 对应的特征值。也称 v 为特征值 λ 对应的特征向量。也即特征向量被施以线性变换 A 只会使向量伸长或缩短而其方向不被改变。

2.4 奇异值分解

将矩阵分解成奇异值和奇异向量

2.5 Moore-Penrose 伪逆

3 概率和信息论

4 数值计算

4.1 上溢和下溢

上溢：取无穷大
下溢：四舍五入取0，变成NaN；

4.2 病态条件

条件数：函数相对于输入的微小变化而变化的快慢程度。

4.3 基于梯度的优化算法

优化指的是改变x以最小化或最大化某个函数f(x)的任务。
最小化或最大化的函数称为目标函数或准则。
进行最小化时称为代价函数、损失函数或误差函数。

*x = arg min f(x)

临界点：梯度中所有元素为零的点
鞍点：既不是最小点也不是最大点

4.4 Hessian矩阵

黑塞矩阵（Hessian Matrix），又译作海森矩阵、海瑟矩阵、海塞矩阵等，是一个多元函数的二阶偏导数构成的方阵，描述了函数的局部曲率。黑塞矩阵最早于19世纪由德国数学家Ludwig Otto Hesse提出，并以其名字命名。黑塞矩阵常用于牛顿法解决优化问题，利用黑塞矩阵可判定多元函数的极值问题。在工程实际问题的优化设计中，所列的目标函数往往很复杂，为了使问题简化，常常将目标函数在某点邻域展开成泰勒多项式来逼近原函数，此时函数在某点泰勒展开式的矩阵形式中会涉及到黑塞矩阵。

一阶优化算法：使用梯度信息的优化算法，梯度下降
二阶最优算法：Hessian矩阵的优化算法，牛顿法

5 机器学习的基础

5.1 学习算法

从数据中学习的算法

常见的机器学习任务:
分类
输入缺失分类
回归
转录
机器翻译
结构化输出
异常检测
合成和采样
缺失值填补
去噪
密度值估计或概率质量函数估计

5.2 容量、过拟合和欠拟合

泛化：在先前未观测到的输入上表现良好的能力

决定机器学习算法效果是否好的因素：

降低训练误差
缩小训练误差和测试误差的差距

欠拟合 ：模型不能在训练集上获得足够低的误差
过拟合：训练误差和测试误差之间的差距过大

5.3 决策树

决策树(Decision Tree）是在已知各种情况发生概率的基础上，通过构成决策树来求取净现值的期望值大于等于零的概率，评价项目风险，判断其可行性的决策分析方法，是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干，故称决策树。
在机器学习中，决策树是一个预测模型，他代表的是对象属性与对象值之间的一种映射关系。

相关阅读:
企业级数据仓库-数仓实战
spark学习笔记（一）——模拟分布式计算
【面试题】如何破坏 JVM的双亲委派机制
数据分析与Excel（三）
(其他) 剑指 Offer 64. 求1+2+…+n ——【Leetcode每日一题】
如何创作属于自己的NFT?
AI&Cloud 分论坛 07-AI原生数据库与RAG【文档管理】
遍历map的4种方法
论文精读（2）—基于稀疏奖励强化学习的机械臂运动规划算法设计与实现(内含实现机器人控制的方法)
Java与es8实战之一：docker快速部署单节点es8+kibana测试环境

原文地址：https://blog.csdn.net/Sinlair/article/details/125890324