• 机器学习与模式识别(判断+简答题)


    判断题:

    1. 若已知特征的情况下,一定可以通过模式识别方法得到特征和类别之间的对应关系。(×)
    2. 在模式识别中,样本的特征构成特征空间,特征数量越多越有利于分类。 (×)
    3. 一个典型的模式识别系统由原始数据获取与预处理、特征提取与选择、分类器设计或聚类、后处理四部分组成。 (√)
    4. 已知一定数量的数据,就可以通过监督模式识别来实现类别的划分 (×)
    5. 基于最小错误率的贝叶斯决策的核心思想是将样本判别为后验概率最大的类别。 (√)
    6. 如果在采取每一个决策或行动时,都使条件风险最小,则对所有的x做出决策时,其期望风险也必然最小。 (√)
    7. 最小风险的贝叶斯决策的判别规则是将样本x判别为条件风险最小的那个类别。 (√)
    8. 错误率是所有服从同样分布的独立样本上错误概率的平均值。 (√)
    9. 最大似然函数估计认为最有可能出现的样本就是似然函数最大的样本。 (√)
    10. 贝叶斯估计中是将未知的参数本身也看作一个随机变量,要做的是根据观测数据对参数的分布进行估计。 (√)
    11. ‏在贝叶斯学习的过程中,训练样本数量越多,估计值越接近与真实值。 (√)
    12. 随着训练样本数的增多,待估计参数的函数会趋近于δ函数。 (√)
    13. 贝叶斯估计的方法类似于贝叶斯决策,也需要定义损失函数。 (√)
    14. 在感知器算法中可以通过梯度下降法找到合适的权向量a。 (√)
    15. 在求解权向量a的过程中,需要定义一个准则函数,准则函数的形式是唯一的,并且一定是权向量a的函数。 (×)
    16. 最小平方误差判别方法中的准则函数是误差长度的平方和。(√)
    17. 在LMS算法中求解出的权向量与常数b无关。 (×)
    18. 感知器准则函数是用权向量a与所有的错分样本的乘积来表示对错分样本的惩罚。 (×)
    19. 在感知器算法中感知器准则函数取得最大值时所对应的权向量a就是所要寻找的合适的权向量。 (×)
    20. 在类别数量未知的情况下,可以采用二分树的方式进行分类器设计。 (√)
    21. 基于距离的分段线性分类器将每一类分成若干子类,也就是各类别里每一个峰代表一个子类,在每个峰里选一个代表点,可以用每个峰的中心来作为代表点。(√)
    22. 在使用二分树进行分类器设计的时候,初始权值对分类结果没有影响。 (×)
    23. 在误差的反向传播过程中,是通过调整权值使得全局误差最小。 (√)
    24. 在BP算法中,学习率选的越大,收敛速度越快。 (×)
    25. 单个感知器可以实现线性分类。 (√)
    26. 神经元是神经网络的基本组成单元。 (√)
    27. ‏BP算法由误差的正向传播和数据的反向传播两个过程构成。(×)
    28. 在利用神经网络进行分类时,神经网络的输入节点的个数等于输入的特征数量。 (√)
    29. 在神经网络对多类问题分类时,可以用少数的输出节点实现多数的类别划分。 (√)
    30. 过学习问题是指神经网络在训练样本集上的误差很小,但是在独立的测试样本集上误差很大。 (√)
    31. ‏近邻法是一种有监督学习 (√)
    32. ‏近邻法对模板数量没有要求,模板数量对分类性能影响不大 (×)
    33. ‍近邻法需要较大计算量和存储量 (√)
    34. 剪辑近邻法可以同时减少数据存储量和计算量 (√)
    35. 决策树学习是无监督学习 (×)
    36. ‎一个数据集只能生成一种决策树 (×)
    37. ID3方法的目的是降低系统信息熵(√)
    38. 随机森林算法是基于自举思想的一种决策树改进算法 (√)
    39. 聚类分析算法属于有监督学习 (×)
    40. 无监督学习不需要训练集就可以进行 (√)
    41. 分级聚类方法需要进行迭代运算(×)
    42. C均值算法是基于相似性度量的 (√)
    43. 在特征选择中,有两个很重要的方面,一个是特征的评价准则,另外一个是特征的寻优算法。 (√)
    44. 可以利用分类器错误率的大小作为设定特征评价准则的依据。 (√)
    45. 穷举法是一种基本的特征选择最优算法。 (√)
    46. 在K-L变换中不同的正交向量系会对应不同的均方误差,在选择时应该选择使均方误差最小的正交向量系。 (√)
    47. 可以通过计算K-L变换的产生矩阵的本征值来得到相应的正交变换系。(√)
    48. 当原始特征的均值不为0时,主成分分析方法和K-L变换方法是等价的。 (×)
    49. 特征的个数越多,模式识别的效果越准确。 (×)
    50. 无监督式学习算法的难度低于监督式学习算法。 (×)
    51. 监督式学习指的是训练样本及输出真值都给定的机器学习算法。 (√)
    52. ‍“过拟合”只在监督学习中出现,在非监督学习中,没有“过拟合”。 (×)
    53. 对于k折交叉验证,k越大不一定越好,选择大的k会加大评估时间。 (√)
    54. ‎单个线性判据只能实现二类分类 (√)
    55. ‌逻辑回归模型可以用来做分类,但SVM不能用来做回归。 (×)
    56. 逻辑回归的决策边界是非线性的 (×)

    简答题:

    1.模式与模式识别

    模式是指在规定的特性上有相似之处的一些具体事物或现象。模式是人认识具体事物或现象时,按照规定的相似性抽象出来的分类,即模式

    模式识别(Pattern Recognition)是对表征事物或现象的各种形式的(数值的,文字的和逻辑关系的)信息进行处理和分析,以便对事物或现象进行描述、辨认、分类和解释的过程。它是信息科学和人就是通过计算机用数学技术方法来研究模式的自动处理和判读。

    2.模式识别与机器学习

    模式识别是一类问题而机器学习是一种解决问题的方法。模式识别与人工智能和机器学习密切相关,它是机器学习在工程上的一种应用。 机器学习是一种自动建立分析模型的数据分析方法。机器学习是一个使用算法从数据中学习从而具有预测功能的领域。算法可以通过一些实例学习并产生一个具有预测功能的系统。机器学习在很大程度上建立在统计学基础上。 模式识别是使用机器学习算法识别模式的过程。模式识别可以定义为基于已经获得的知识或从模式(或模式的表征信息)中提取的统计信息,利用机器学习算法来数据进行分类。在IT领域,模式识别是机器学习的一个分支,它强调对给定场景中的数据模式或数据规律的识别。

    3.过拟合与欠拟合

    过拟合:

    定义:具体表现就是最终模型在训练集上效果好;在测试集上效果差。模型泛化能力弱。

    原因:
    1)训练数据中噪音干扰过大,使得学习器认为部分噪音是特征从而扰乱学习规则。
    2)建模样本选取有误,例如训练数据太少,抽样方法错误,样本label错误等,导致样本不能代表整体。
    3)模型不合理,或假设成立的条件与实际不符。
    4)特征维度/参数太多,导致模型复杂度太高。

    解决方法:

    1)增加训练数据数

    2)使用正则化约束

    3)减少特征数

    4)调整参数和超参数

    5)降低模型的复杂度

    6)使用Dropout(神经网络)

    7)提前结束训练

    欠拟合:

    定义:欠拟合是指对训练样本的一般性质尚未学好。在训练集及测试集上的表现都不好。

    原因:1)模型复杂度过低 2)特征量过少

    解决方法:

    1)模型复杂化

    2)增加更多的特征,使输入数据具有更强的表达能力

    3)调整参数和超参数

    4)降低正则化约束

    4.什么是监督学习和非监督学习,它们之间的区别有哪些?

    监督学习,是指训练集的数据已经分好类别,通过对带有标签的数据进行学习,来调整分类器的参数,使其达到所要求性能的过程。当用测试集对模型进行测试时,给出D测={xi }=>{yi}。

    常见的监督学习算法:逻辑回归、K近邻、朴素贝叶斯、支持向量机

    非监督学习,需要将一系列没有标签和类别未知的数据,输入到算法中,需要根据样本之间的相似性对样本集进行分类(聚类)试图使类内差距最小化,类间差距最大化。

    常见的非监督学习算法:K-means、LDA

    ①监督学习必须要有训练集和测试集,非监督学习没有训练集,只有一组数据,在该数据集内寻找规律。

    ②监督学习要求训练集必须由带标签的样本组成,非监督学习不要求数据样本带有标签。

    ③非监督学习是在寻找数据集中的规律性,但这种规律性并不一定要对数据进行分类。

    5.解释分类、聚类、回归、损失函数

    分类:根据一些给定的已知类别标号的样本,通过训练得到某种目标函数,使它能够对未知类别的样本进行分类。

    聚类:指事先并不知道任何样本的类别标号,希望通过某种算法来把一组未知类别的样本划分成若干类别,这在机器学习中被称作无监督学习。

    回归:用于预测输入变量和输出变量之间的关系,特别是当输入变量的值发生变化时,输出变量的值随之发生的变化。

    损失函数:用来估量模型的预测值f(x)与真实值Y的不一致程度,它是一个非负实值函数,通常使用L(Y, f(x))来表示,损失函数越小,模型的鲁棒性就越好。

    6.模式识别的过程
    处理监督模式识别问题的一般步骤:

    · 分析问题:深入研究应用领域的问题,分析是否属于模式识别问题,把所研究的目标表示为一定的类别,分析给定数据或者可以观测的数据中哪些因素可能与分类有关。

    · 原始特征获取:设计实验,得到已知样本,对样本实施观测和预处理,获取可能与样本分类有关的观测向量(原始特征)。

    · 特征提取与选择:为了更好地进行分类,可能需要采用一定的算法对特征进行再次提取和选择。

    · 分类器设计:选定一定的分类器方法,用已知样本进行分类器训练。

    · 分类决策:利用一定的算法对分类器性能进行评价;对未知样本实施同样的观测、预处理和特征提取与选择,用所设计的分类器进行分类,必要时根据领域知识进行进一步的后处理。

    处理非监督模式识别问题的一般步骤:

    · 分析问题:深入研究应用领域的问题,分析研究目标能否通过寻找适当的聚类来达到;如果可能,猜测可能的或希望的类别数目;分析给定数据或者可以观测的数据中哪些因素可能与聚类有关。

    · 原始特征获取:设计实验,得到待分析的样本,对样本实施观测和预处理,获取可能与样本聚类有关的观测向量(原始特征)。

    · 特征提取与选择:为了更好地进行聚类,可能需要采用一定的算法对特征进行再次提取和选择。

    · 聚类分析:选定一定的非监督模式识别方法,用样本进行聚类分析。

    · 结果解释:考察聚类结果的性能,分析所得聚类与研究目标之间的关系,根据领域知识分析结果的合理性,对聚类的含义给出解释;如果有新样本,把聚类结果用于新样本分类。

  • 相关阅读:
    leetcode 2225. Find Players With Zero or One Losses(找出全赢或只输一次的玩家)
    MySQL安全性:用户认证、防范SQL注入和SSL/TLS配置详解
    PL/SQL编程
    寻找左下角的值leetcode题解513-前序遍历递归法
    c#设计模式-行为型模式 之 访问者模式
    Flink多流转换(一)
    Bugku刷题记录(六)
    代码混淆界面介绍
    计算机组成原理历年考研真题对应知识点(计算机的性能指标)
    IDEA 断点高阶
  • 原文地址:https://blog.csdn.net/weixin_43890415/article/details/128010130