• 【动手学深度学习】课程笔记 04 数据操作和数据预处理


    目录

    数据操作

    N维数组样例

    访问元素

    数据操作实现

    入门

    运算符

    广播机制

    节省内存

    转换为其他Python对象

    数据预处理实现


    数据操作

    N维数组是机器学习和神经网路的主要数据结构。

    N维数组样例

    访问元素

    数据操作实现

    下面介绍一下本课程中需要用到的PyTorch相关操作。

    入门

    1. import torch # 导入PyTorch库
    2. x = torch.arange(12)# 创建一个长度为12的一维张量,元素从0到11
    3. x.shape # 访问张量沿每个轴的长度,注意这里没有()
    4. x.numel() # 张量的大小,也就是所有元素的数量
    5. X = x.reshape(a, b) # 将张量的形状改为(a, b),其中a和b为整数,注意只是改变形状,不改变地址
    6. torch.zeros((a, b, c)) # 创建一个形状为(a, b, c)的张量,所有元素都设置为0
    7. torch.ones((a, b, c)) # 所有元素都设置为1
    8. torch.randn(a, b) # 元素从均值为0、标准差为1的正态分布中随机采样

    运算符

    1. import torch # 导入PyTorch库
    2. x = torch.tensor([1.0, 2, 4, 8])
    3. y = torch.tensor([2, 2, 2, 2])
    4. x + y, x - y, x * y, x / y, x ** y # **运算符是求幂运算
    5. torch.exp(x) # 所有元素求对数
    6. X = torch.arange(12, dtype=torch.float32).reshape((3,4)) # 所有元素设置为浮点数
    7. Y = torch.tensor([[2.0, 1, 4, 3], [1, 2, 3, 4], [4, 3, 2, 1]])
    8. torch.cat((X, Y), dim=0), torch.cat((X, Y), dim=1) # 将两个矩阵在一维上连接起来

    广播机制

    当两个大小形状不同的矩阵做运算时,由于元素不能直接一一对应,所以会使用广播机制,通过适当复制元素来扩展一个或两个数组,以便在转换之后,两个张量具有相同的形状。

    当然,触发广播机制是需要条件的:

    1. 两个张量必须不为空;
    2. 两个张量从最后一个维度比较,必须每个维度都满足这三个条件之一:两个相同,其中一个为1,其中一个为空。
    1. import torch # 导入PyTorch库
    2. a = torch.arange(3).reshape((3, 1))
    3. b = torch.arange(2).reshape((1, 2))
    4. a + b
    5. # tensor([[0, 1],
    6. # [1, 2],
    7. # [2, 3]])

    节省内存

    1. import torch # 导入PyTorch库
    2. X = torch.tensor([[1, 2, 3], [4, 5, 6]])
    3. Y = torch.tensor([[7, 8, 9], [3, 2, 1]])
    4. before = id(Y)
    5. Y = Y + X
    6. id(Y) == before
    7. # false
    8. # 输出结果表明,这个加法操作改变了Y的指向,也就指向了新的内存地址
    9. Z = torch.zeros_like(Y)
    10. print('id(Z):', id(Z))
    11. Z[:] = X + Y
    12. print('id(Z):', id(Z))
    13. # id(Z): 2219878943616
    14. # id(Z): 2219878943616
    15. # 将两个矩阵相加后赋值给同样大小的全零矩阵,内存地址就不会变了
    16. # 这样就可以节省内存开销

    转换为其他Python对象

    不同库里的张量的数据类型也不同,但是可以把表示张量的字符看作指针,不同库的指针可以指向同一个张量,也就是共享底层内存,因此,改变一个张量也可能同时改变另一个。

    1. import torch # 导入PyTorch库
    2. import numpy # 导入numpy库
    3. X = torch.tensor([1, 2, 3])
    4. A = X.numpy()
    5. B = torch.tensor(A)
    6. type(A), type(B)
    7. # (numpy.ndarray, torch.Tensor)
    8. a = torch.tensor([3.5])
    9. a, a.item(), float(a), int(a)
    10. # (tensor([3.5000]), 3.5, 3.5, 3)
    11. # 用item函数可以将张量转换为python标量

    数据预处理实现

    1. import os
    2. os.makedirs(os.path.join('..', 'data'), exist_ok = True)
    3. data_file = os.path.join('..', 'data', 'house_tiny.csv')
    4. # 创建一个人工数据集,并存储在csv文件中
    5. # csv文件是以逗号分隔值的表格文件
    6. with open(data_file, 'w') as f:
    7. f.write('NumRooms,Alley,Price\n') # 列名:房间数,是否有路,价格
    8. f.write('NA,Pave,127500\n')
    9. f.write('2,NA,106000\n')
    10. f.write('4,NA,178100\n')
    11. f.write('NA,NA,140000\n')
    12. import pandas as pd
    13. data = pd.read_csv(data_file) # 使用pandas里的pd函数读取数据
    14. data
    15. # NumRooms Alley Price
    16. #0 NaN Pave 127500
    17. #1 2.0 NaN 106000
    18. #2 4.0 NaN 178100
    19. #3 NaN NaN 140000
    20. # 下面是处理缺失的插值法
    21. inputs, outputs = data.iloc[:, 0:2], data.iloc[:, 2] # inputs为data的前两列,outputs为最后一列
    22. inputs = inputs.fillna(inputs.mean()) # 对于inputs中缺失的数据,用同一列的均值替换“NaN”
    23. print(inputs)
    24. # 因为inputs中的离散值只有两个:Pave和NaN,所以可以把它们标准化为1和0
    25. inputs = pd.get_dummies(inputs,dummy_na = True)
    26. print(inputs)
    27. import torch
    28. X = torch.tensor(inputs.to_numpy(dtype=float)) # 将数据转换为张量格式
    29. y = torch.tensor(outputs.to_numpy(dtype=float))
    30. X, y

    以上是数据预处理的基本操作,还有很多进阶操作需要进一步学习,比如作业中的删除NaN值最多的列等,这些只是基础中的基础。

  • 相关阅读:
    OC-消息转发
    详细说明idea中的war和war exploded的区别
    java源码系列:HashMap底层存储原理详解——2、技术本质-原理过程-数据结构
    Scikit-LLM:一款大模型与 scikit-learn 完美结合的工具!
    Java8 Stream使用整理
    js匹配查找JSON中属性并返回路径
    Three.JS程序化建模入门
    基于MFC和OpenCV实现人脸识别
    传智教育|git实战技巧-本地刚做出的修改、暂存和提交如何进行撤销
    全局异常处理器
  • 原文地址:https://blog.csdn.net/Summerison/article/details/133671873