• 数据挖掘一些概念


    基本步骤:

    1 数据清理

    2 数据集成

    3 数据选择

    4 数据变换

    5 数据挖掘

    6 模式评估

    7 知识表示

    数据的属性有哪些:

    1 标称属性:可以说成是事物的名称 例如 头发的颜色:棕色,红色,褐色等

    2 二元属性:用 0或1 表示,又称布尔属性

    3 序数属性: 第一,第二,第三,A,B,C,D,等级之类的,序数之间没有明确的差值

    4 数值属性:有两种 (1).区间标度属性,比如温度15°和30°,差了15°,但是你不能说30°是15°的2倍 (2)比例率属性,比如100美元是1美元的100倍

    5 离散属性与连续属性

    数据的表述:

    1 中心趋势度量:可以用到 (1)均值 (2)中位数 (3) 众数

    均值:所有数据加起来求平均

    加权平均: 所有数据乘以他的权重,求和,在除以他的权重和

    中位数:递增排序后,中间的那个数,如果是偶数个,则为中间两个的平均值

    众数:数据中出现最多的数

    中列数:数据中最大数和最小数的和值得平均

    中列数可以看出数据是正倾斜还是负倾斜(在中位数的左边还是右边)左正右负

    度量数据散布:

    1 极差,四分位数,方差,标准差,和四分位极差

    极差:最大和最小数的差

    四分位数:数据中第25%(Q1) 50%(Q2)  75%(Q3),可以把数据分成四分,使得每部分是数据的四分之一。

    四分位极差:IQR=Q3-Q1

    方差:(数据的平均值减去数据中的每一个值)的平方,然后求和,再除以数据的个数

    标准差:方差开平方

                        

  • 相关阅读:
    软件包管理—源码包管理—源码包安装过程
    windows打包软件-Inno Setup
    linux EOF 用法
    【软考-软件设计师精华知识点笔记】第七章 面向对象技术
    计算机设计大赛 题目: 基于深度学习的疲劳驾驶检测 深度学习
    【JVM】G1垃圾回收器简述
    html 动态设置下拉选项
    MySQL学习笔记:索引2
    前端面试开发-js代码实现篇
    C++的强制类型转换简介
  • 原文地址:https://blog.csdn.net/qq_27047075/article/details/105027564