码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • sklearn快速入门教程:独热编码


    1. import pandas as pd
    2. data = pd.read_csv(r"D:\本科\kaggle数据挖掘\titanic\train.csv", index_col = 0)
    3. data.head()

     处理缺失值:

    1. from sklearn.impute import SimpleImputer
    2. Embarked = data.loc[:, "Embarked"].values.reshape(-1,1)
    3. imp_mode = SimpleImputer(strategy = "most_frequent") #most_frequent == 众数
    4. data.loc[:,"Embarked"] = imp_mode.fit_transform(Embarked)
    5. data.info()

     

    
    Int64Index: 891 entries, 1 to 891
    Data columns (total 4 columns):
     #   Column      Non-Null Count  Dtype 
    ---  ------      --------------  ----- 
     0   Survived    891 non-null    int64 
     1   Sex         891 non-null    object
     2   Embarked    891 non-null    object
     3   Survived.1  891 non-null    int64 
    dtypes: int64(2), object(2)
    memory usage: 34.8+ KB
    1. from sklearn.preprocessing import OneHotEncoder
    2. X = data.iloc[:,0:-1]
    3. X

     

    1. enc = OneHotEncoder(categories = 'auto').fit(X) #categories是自动属性——不用人为输入有什么属性(男、女),自动识别
    2. result = enc.transform(X).toarray() #to array 转化成array
    3. result
    array([[0., 1., 0., 0., 1.],
           [1., 0., 1., 0., 0.],
           [1., 0., 0., 0., 1.],
           ...,
           [1., 0., 0., 0., 1.],
           [0., 1., 1., 0., 0.],
           [0., 1., 0., 1., 0.]])
    
    result.shape #查看result的shape
    (891, 5)

    891行,5列(3+2:

    男:10

    女:01

    S:100

    C:010

    Q:001

    1. result = pd.DataFrame(result)
    2. result

    1. newdata = pd.concat([X,result], axis = 1)
    2. newdata.head()

     

    1. newdata.drop(["Sex", "Embarked"], axis = 1, inplace = True) #删除掉Sex和Embarked列
    2. newdata.columns = ["Female", "Male", "Embarked_C", "Embarked_Q", "Embarked_S"]
    3. newdata.head()

  • 相关阅读:
    C++入门 —— 命名空间
    开放目标检测Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection 论文阅读笔记
    Zabbix钉钉报警
    基于安卓android微信小程序的校园互助平台
    MShadow中的表达式模板
    REDIS上如何批量删除KEY?
    机器学习——boosting之提升树
    Android系统启动之init进程启动+Zygote进程启动分析
    i.MX6ULL - 问题解决:NFS挂载失败 - VFS: Unable to mount root fs on unknown-block(2,0)
    java单例模式
  • 原文地址:https://blog.csdn.net/ykrsgs/article/details/126327990
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号