码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 癌症分类预测-良/恶性乳腺癌肿瘤预测


    数据介绍

    • https://archive.ics.uci.edu/ml/machine-learning-databases/icon-default.png?t=M7J4https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/

      数据描述

      (1)699条样本,共11列数据,第一列用语检索的id,后9列分别是与肿瘤

      相关的医学特征,最后一列表示肿瘤类型的数值。

      (2)包含16个缺失值,用”?”标出。

    分析

    1. 获取数据
    2. 基本数据处理
    3.      缺失值处理
    4.      确定特征值  目标值
    5.      分割数据
    6. 特征工程(标准化)
    7. 机器学习(逻辑回归)
    8. 模型评估

    代码实现

    1. import pandas as pd
    2. import numpy as np
    3. from sklearn.model_selection import train_test_split
    4. from sklearn.preprocessing import StandardScaler
    5. from sklearn.linear_model import LogisticRegression
    6. #ssl报错的话就导入
    7. import ssl
    8. ssl._create_default_https_context = ssl._create_unverified_context
    1. # 1.获取数据
    2. names = ['Sample code number', 'Clump Thickness', 'Uniformity of Cell Size', 'Uniformity of Cell Shape',
    3. 'Marginal Adhesion', 'Single Epithelial Cell Size', 'Bare Nuclei', 'Bland Chromatin',
    4. 'Normal Nucleoli', 'Mitoses', 'Class']
    5. data = pd.read_csv("https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/breast-cancer-wisconsin.data",
    6. names=names)
    7. data.head()

    上述代码可以直接导入先看看结果,因为列名不对 所以才用names指定列名

    1. # 2.基本数据处理
    2. # 2.1 缺失值处理
    3. data = data.replace(to_replace="?", value=np.NaN)
    4. data = data.dropna()
    5. # 2.2 确定特征值,目标值
    6. x = data.iloc[:, 1:10]
    7. x.head()
    8. y = data["Class"]
    9. y.head()
    10. # 2.3 分割数据
    11. x_train, x_test, y_train, y_test = train_test_split(x, y, random_state=22)

    data.ioc[:,1:10]  解释

    :表示所有行

    1:10 表示1到10列

    1. # 3.特征工程(标准化)
    2. transfer = StandardScaler()
    3. x_train = transfer.fit_transform(x_train)
    4. x_test = transfer.transform(x_test)

    以上是对数据进行标准化处理

    1. # 4.机器学习(逻辑回归)
    2. estimator = LogisticRegression()
    3. estimator.fit(x_train, y_train)

    采用逻辑回归  将训练数据 和 训练的目标值y 传进去

    自动出结果

    1. # 5.模型评估
    2. y_predict = estimator.predict(x_test)
    3. y_predict
    4. estimator.score(x_test, y_test)

    用测试数据苹果预测结果!

  • 相关阅读:
    Unity(第二十四部)UI
    SpringBoot SpringBoot 开发实用篇 4 数据层解决方案 4.11 SpringBoot 整合 MongoDB
    使用promise的基本功能【四、Promise源码】
    快应用接入云函数服务指导
    【LeetCode热题100】--347.前K个高频元素
    Vue50-mixin混入
    Java Spring Cloud XXIII 之 配置中心
    vue3 Composition API 组合式api
    如何实现跨窗口通讯
    设计模式学习笔记 - 开源实战二(中):从Unix开源开发学习应对大型复杂项目开发
  • 原文地址:https://blog.csdn.net/weixin_44199723/article/details/126508227
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号