码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 【解决】多卡服务器GPU不能多用户同时使用的问题


    一台多卡服务器,为提高利用效率,通常有多个用户使用。

    假设有一台服务器A,分别有0,1,2,3四张卡,我们有两个用户:甲和乙。

    当甲启动卡0时,乙想用卡1,2,3。但是乙的进程一直卡住了,等甲进程完全结束后也未曾启动。白白浪费了其他3倍的GPU hours,人神共愤。但是Debug的时候又不知道问题出在哪里。


    那么这篇文章提供一个可能的解决方案:

    大概率是因为nvidia-mps进程导致多用户不能同时使用GPU。
    解决办法如下:
    先查看mps进程号:

    ps -ef | grep nvidia
    
    • 1

    看到:

    root 1234 xxx /usr/bin/nvidia-cuda-mps-server
    
    • 1

    第二列就是进程号,直接用root权限kill掉这个进程:

    sudo kill -9 1234
    
    • 1

    这种情况,几乎就解决了多用户用卡冲突的问题~

    另外,如果还想掰细一点,即同一张卡也被多个用户使用,实现最大程度地共享使用,那就设置:

    nvidia-smi -i 0 -c DEFAULT
    nvidia-smi -i 1 -c DEFAULT
    nvidia-smi -i 2 -c DEFAULT
    nvidia-smi -i 3 -c DEFAULT
    
    • 1
    • 2
    • 3
    • 4

    分别将4张卡都设置为DEFAULT模式。如果想独享某张卡,可以设置为EXCLUSIVE_PROCESS,假如我想让卡2被独享,则:

    nvidia-smi -i 2 -c EXCLUSIVE_PROCESS
    
    • 1

    有问题请留言交流~

  • 相关阅读:
    Cannot resolve symbol ‘TimeUnit‘
    洛谷P5545 炸弹攻击2
    为什么高防服务器比普通服务器贵
    如何设计一个数据库
    Docker 镜像全军覆没后,如何给Ubuntu手动安装 docker 服务
    使用springboot每日推送早安问候语到用户微信
    《NLP入门到精通》栏目导读
    thymeleaf在网页中上传文件
    高项 沟通管理论文
    大集合按照指定长度进行分割成多个小集合,用于批量多次处理数据
  • 原文地址:https://blog.csdn.net/leviopku/article/details/132716160
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号