







- 数字化:将从传感器采集的模拟语音信号离散化为数字信号;
- 预加重:预加重的目的是为了对语音的高频部分进行加重,去除口唇辐射的影响,增加语音的高频分辨率;
- 端点检测:从语音信号中识别并消除长时间静音段,减少环境对信号的干扰;
- 分帧:因为语音的短时平稳性,所以要进行“短时分析”,即将信号分段,每一段称为一帧(一般10-30ms);
- 加窗:语音信号的分帧是采用可移动的有限长度窗口进行加权的方法来实现的。加窗的目的是减少语音帧的截断效应。常见的窗有:矩形窗、汉宁窗和汉明窗等。











- 语音识别任务分类 - 孤立词识别
- 语音识别任务分类 - 连续词识别
- 语音识别算法

- 文本分析
文本归一化:对形形色色的自然文本数据进行预处理或者归一化,包括句子的词例还原,非标准词,同形异义词排歧等;不完整的词完整化
语音分析:文本归一化之后的下一步就是语音分析,具体方法包括通过大规模发音词典,字位-音位转换规则;分词
韵律分析:分析文本中的平仄格式和押韵规则,这里主要包含三方面的内容,包括:韵律的机构,韵律的突显度,音调。

- GMM计算步骤
高斯混合模型函数
概率密度函数
似然函数
对数似然函数
EM算法求解- 优缺点
优点:
拟合能力强
对语音特征匹配概率最大化
缺点:
无法处理序列因素
无法处理线性或近似线性数据
混合模型是一个可以用来表示在总体分布中含有K个子分布的概率模型,换句话说,混合模型表示了观测数据在总体中的概率分布,它是一个由K个子分布组成的混合分布。例如:由几个高斯分布混合起来的模型叫高斯混合模型,几个线性模型混合在一起的模型叫线性混合模型。
混合模型是一个统计模型,包含固定效应和随机效应两种效应的混合。在统计学中,混合模型是代表一个大群体中存在子群体的概率模型;混合模型不要求观测数据提供关于子分布的信息来计算观测数据在总体分布中的概率。











整个EM算法可以归结为以下几个步骤:
初始化参数;
求解期望,也就是每个样本点属于每个单高斯模型的概率;
最大化过程,根据期望过程得到的结果,更新参数;
迭代上述过程直至收敛。





第n次购买商品只与第n-1次有关,而不依赖前面n-2次的概率

第三次概率:P(aaa)=0.20.80.8




- 马尔科夫链学习算法 - 穷举法





- 评价问题:给定五个参数A B π R S的情况下,计算一个可观测序列出现的概率,包括前向算法和后向算法
![]()
- 前向后向算法
- 解码问题:待给定一个隐马尔可夫模型情况下,给出一个观测序列,计算能给出这个观测序列的序列最有可能是哪一个。包括动态规划算法和Viterbi算法
![]()
- 隐马尔科夫模型解码算法 - 穷举法
- 隐马尔科夫模型解码算法 - Viterbi
- 学习问题:根据已有数据,推算到模型所需要的参数的问题,包括监督式算法和非监督式Baum-Welch算法
![]()
- 隐马尔科夫模型学习算法 - 监督算法
- 隐马尔科夫模型学习算法 - Baum-Welch





















保证样本分布的准确性

前期学习率大,探索,后期学习率小,希望更精确





DNN:
HMM:描述语音的序列化信息
一个状态先验概率分布:将先验和后验概率联系起来
性能升级
使用更深的神经网络DNN:更深的网络层次,这样有更好的表达
使用更长的帧作为输入:更多上下文信息,对当前状态进行更好的预测
使用三因素进行建模:语言发音因素建模
提升训练数据的标注质量:标注越准确,训练模型越好
预处理(浅层DNN):先浅训练得到结果,可以在更好的位置取向最优
DNN训练加速
多GPU反向传播
异步随机梯度下降
减小模型规模
记错
解码加速
并行计算
稀疏网络
低秩近似(大尺寸DNN训练小尺寸DNN)
多帧DNN
DNN优于GMM

循环神经网络(英文名Recurrent Neural Networks,简称RNN)是一种通过隐藏层节点周期性的连接,来捕捉序列化数据中动态信息的神经网络,可以对序列化的数据进行分类。
和其他前向神经网络不同,RNN可以保存一种上下文的状态,甚至能够在任意长的上下文窗口中存储、学习、表达相关信息,而且不再局限于传统神经网络在空间上的边界,可以在时间序列上有延拓。
RNN广泛应用在和序列有关的场景,如一帧帧图像组成的视频,一个个片段组成的音频,和一个个词汇组成的句子。
RNN适用的场景

结构展开

计算过程

标准RNN

BPTT(随时间反向传播)

RNN梯度消失和梯度爆炸
反向训练时,对于RNN来说,要横向往前推,一直往前推到序列开始的地方。
梯度消失,梯度爆炸都与路径长度太长有关,前面的权重都基本固定不变,没有训练效果。