• 零拷贝(Zero Copy)技术


    概念

    我们知道Linux系统分为用户态和内核态,在用户态每发起一次IO请求,就需要进行2次上下文切换(分别是用户态->内核态,内核态→用户态),和一次CPU拷贝(将数据从内核缓存拷贝到用户缓存)。
    设想一个最简单的应用场景,即从一个文件读取数据并写入另一个文件,整个过程需要进行四次上下文切换,并且需要2次CPU拷贝和2次DMA拷贝。
    在这里插入图片描述
    无论是上下文切换还是CPU拷贝都是十分消耗CPU资源的行为,而零拷贝就是使用各种技术减少甚至消除这些CPU参与的上下文切换和拷贝动作。

    方法

    零拷贝的实现共有三大类方法:

    1. 减少甚至消除内核态到用户态的拷贝:在某些情况下,例如上述的文件读写,其实用户并不需要访问实际的数据,那么数据就无需经过 内核->用户→内核 的两次拷贝过程,让数据只在内核中拷贝一次甚至完全不拷贝。Linux提供了一些特殊的系统调用,例如mmap,sendfile,splice等,可以实现这类操作,整个过程还是以内核为主导。
    2. 用户绕过内核与硬件直接IO:通过某些方法可以使用户态的进程绕过内核直接与硬件通信,从而避免数据的多次传输,内核在这一过程中只起辅助作用,整个过程以用户态进程为主导。
    3. 在传统IO架构上优化传输方式。

    接下来我们将简单介绍这几种方法的几个具体实现案例。

    减少拷贝

    mmap

    mmap的整个流程如下:

    1. 首先由用户态进程发起mmap系统调用,切换到内核态
    2. 内核将指定的内核缓存区映射到用户缓存区
    3. 内核驱动DMA拷贝相关数据至内核缓存,拷贝完成后切换回用户态
    4. 用户调用writer系统调用,切换至内核态
    5. 内核将数据从数据拷贝至套接字缓存区
    6. DMA讲数据拷贝至实际硬件(网卡、磁盘)
    7. write返回,切换回用户态
      整个流程需要进行4次上下文切换,一次CPU拷贝和两次DMA拷贝,与经典方法相比少了一次CPU拷贝。
      但是这种映射也是很消耗CPU资源的,只适合在传输数据量较大时使用,否则反而会更慢。
      在这里插入图片描述
      优点:减少一次CPU拷贝
      缺点:不能对数据进行任何操作,in只能是指向文件的fd。系统调用次数没有优化。

    sendfile

    如果只是想简单的进行数据传输,那么上述流程显然还可以简化,sendfile就是mmap和write函数的结合。
    sendfile中可以直接指定想要读取的文件和想要写入的文件,只进行一次系统调用,从而将上下文切换减少至2次。
    内核中的实际流程和mmap一致。
    在这里插入图片描述
    在2.4版本之后,Linux又做了一些优化,可以让DMA拷贝到非连续的内存并且可以从非连续内存拷贝数据,因此最后一次CPU拷贝就也可以去掉了,流程如下
    在这里插入图片描述
    优点:系统调用减少至1次,CPU拷贝次数减少至0次。

    splice

    splice技术是通过一个管道在内核空间传递想要拷贝数据的物理内存地址,从而实现实际数据的0拷贝。
    用户在使用时需要先创建一个pipe管道,获取其输入和输出对应的文件描述符,再调用两次splice,分别将数据的物理内存地址写入和pipe和从pipe中读出。
    在这里插入图片描述
    优点:CPU拷贝次数减少至0次
    缺点:需要3次系统调用
    由于后续sendfile底层使用了splice,因此splice没有额外提供更简便的接口。
    只用在数据传输特别频繁时,可以通过该接口重复利用pipe,可以节省内存。

    send with MSG_ZEROCOPY

    可以将数据从用户态零拷贝的传输到网卡,在传输大包时很有用

    if (setsockopt(socket_fd, SOL_SOCKET, SO_ZEROCOPY, &one, sizeof(one)))
            error(1, errno, "setsockopt zerocopy");
    
    ret = send(socket_fd, buffer, sizeof(buffer), MSG_ZEROCOPY);
    
    • 1
    • 2
    • 3
    • 4

    绕过内核直接IO

    上文介绍的各种方法都是由内核在内核态中进行操作,尽量较少不必要的拷贝。
    那么假如用户可以直接访问硬件,通过DMA讲数据直接拷贝至用户态,岂不是更为理想。
    在这里插入图片描述
    这种方式的优点十分明显,数据全程不经过内核态,较少拷贝,同时用户可以在用户态中任意操作读取到的数据。

    但也有一些缺点:

    1. 破坏了对硬件的抽象,使用繁琐
    2. 将硬件的操作权下放给用户,增大了风险
    3. 硬件与用户进程绑定,只能支持特定场景
    4. 为了防止DMA在拷贝时实际物理内存被其他进程占用,需要提前申请内存池

    用户直接访问硬件

  • 相关阅读:
    面试必备:2019年Java 最常见 100+ 面试题解析
    View, Model
    Redis 集群搭建教程
    微信小程序父组件向子组件传参,子组件样式无效问题处理
    c++学习day3 c++指针
    java中获取主机信息InetAddress类的两种方法
    windows中service服务按钮灰色无法关闭处理
    39个你需要知道的Git命令
    Ubuntu 22.04 搭建 KubeSphere 3.4.1 集群
    python之计算市场技术指标
  • 原文地址:https://blog.csdn.net/qq_35630121/article/details/128207607