• 2022国赛C题解析


    数据

    在这里插入图片描述
    在这里插入图片描述
    读取玻璃文物的基本信息数据设置索引:
    在这里插入图片描述

    问题一

    风化与类型、纹饰和颜色的关系

    分别读取:
    在这里插入图片描述
    在这里插入图片描述
    做相关性分析即可:
    在这里插入图片描述
    分析结果:
    在这里插入图片描述
    可视化下就丰富了论文了。

    统计规律

    做好可视化来描述统计规律就再好不过了。比如可以用这样的箱型图:
    在这里插入图片描述
    在这里插入图片描述

    预测其风化前的化学成分含量

    输出处理好后,决策树就挺好。这个题需要注意的是,这是化学背景的题,肯定要考虑化学反应,所以最好先预测sio2这个催化剂再预测花絮成分会好一点。
    在这里插入图片描述

    问题二

    选择合适的化学成分进行亚类划分
    使用层次聚类的方法即可,如果使用kmeans的话需要结合手肘法。最后分为三个亚类。可视化:
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    其中一个手肘图绘制可以得到如下:
    在这里插入图片描述
    拐点3处为最佳。

    问题三

    基于问题二的模型带上去就好了。为了增加工作量,增加一些其它算法实践进行对比。

    以梯度提升回归算法为例进行实践:

    # 梯度提升回归算法
    import pandas as pd
    from sklearn.model_selection import train_test_split
    from sklearn.ensemble import GradientBoostingRegressor
    from sklearn.metrics import mean_squared_error
    
    
    gbr_params = {'n_estimators': 1000,
              'max_depth': 3,
              'min_samples_split': 5,
              'learning_rate': 0.01,
              'loss': 'ls'}
    
    #  创建梯度提升回归,带入参数
    gbr = GradientBoostingRegressor(**gbr_params)
    gbr.fit(X_train, y_train) #训练模型
    
    df3["分类结果"] = gbr.predict(X_test) # 1:"高钾", 2:"铅钡
    df3
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19

    得到如下:
    在这里插入图片描述
    从而得出表单三结果A1 A6 A7为高钾 , 其它为铅钡

    问题四

    关联性皮尔斯曼相关性
    在这里插入图片描述

    差异性:pandas提取两个类型的数据,做典型相关分析。相关小则差异大,相关大则差异小。直接用SPSS做很方便。

    思考:如何处理机器学习的过拟合问题?

    难度评价

    数据挖掘中,中等题目吧。几乎每个人都能想到一点思路,所以选择它的人很多。做它容易,做好难。

  • 相关阅读:
    linux常用命令(4):mkdir命令(创建目录)
    RabbitMQ之延迟队列
    【C++杂货铺】探索list的底层实现
    快速记住《计算机文化基础》海量题法
    你没见过的分库分表原理解析和解决方案(二)
    k8s ingress基础
    TDesign数据请求wx.request
    BloomFilter:布隆过滤器和Redis缓存穿透
    PAT 1141 PAT Ranking of Institutions
    react--编程式导航、antd的使用
  • 原文地址:https://blog.csdn.net/weixin_46211269/article/details/126929454