NVIDIA系统管理接口 -- v515.65.01 NVSMI为Tesla和部分Quadro设备提供监控信息。 数据通过标准输出或文件以纯文本或XML格式呈现。 NVSMI还提供了几种用于更改设备状态的管理操作。 请注意,NVSMI的功能是通过基于NVML C的库公开的。 有关NVML的更多信息,请参阅NVIDIA开发人员网站。 NVML的Python包装器也可用。 NVSMI的输出不保证向后兼容; NVML和绑定是向后兼容的。 http://developer.nvidia.com/nvidia-management-library-nvml/ http://pypi.python.org/pypi/nvidia-ml-py/ 支持的产品: - 全支持 - 全部的 Tesla 产品, 从Kepler体系结构开始 - All Quadro products, starting with the Kepler architecture - All GRID products, starting with the Kepler architecture - GeForce Titan products, starting with the Kepler architecture - 支持限制 - All Geforce products, starting with the Kepler architecture nvidia-smi [OPTION1 [ARG1]] [OPTION2 [ARG2]] ... -h, --help 打印使用信息并退出。 OPTION列表: -L, --list-gpus 显示连接到系统的GPU列表。 -B, --list-excluded-gpus 显示系统中排除的GPU列表。 摘要OPTION: 显示连接到系统的GPU的摘要。 [加上] -i, --id= 以特定的GPU为目标。 -f, --filename= 登录到指定的文件,而不是标准输出。 -l, --loop= 以指定的第二个间隔探测,直到Ctrl+C。 查询选项: -q, --query 显示GPU或单元信息。 [加上] -u, --unit 显示单元而不是GPU属性。 -i, --id= 以特定GPU或单元为目标。 -f, --filename= 登录到指定的文件,而不是标准输出。 -x, --xml-format 生成XML输出。 --dtd 显示xml输出时,嵌入DTD。 -d, --display= 仅显示所选信息:内存、利用率、ECC、温度、功率、时钟、计算、PID、性能、支持的时钟、页面退休、计费、编码器统计、支持的GPU_TARGET_TEMP、电压FBC_STATS、行重新映射标志可与逗号组合,例如ECC、功率。 对于功率、利用率和时钟显示类型,也会返回带有maxminavg的采样数据。 不适用于-u或-x标志。 -l, --loop= 以指定的第二个间隔探测,直到Ctrl+C。 -lms, --loop-ms= 以指定的毫秒间隔探测直到Ctrl+C。 选择性查询选项: 允许调用者传递要查询的属性的显式列表。 [其中一个] --query-gpu= 有关GPU的信息。 Call --help-query-gpu for more info. --query-supported-clocks= 支持的时钟列表。 Call --help-query-supported-clocks for more info. --query-compute-apps= 当前活动计算进程的列表。 Call --help-query-compute-apps for more info. --query-accounted-apps= 已计算进程的列表。 Call --help-query-accounted-apps for more info. vGPU主机不支持此查询。 --query-retired-pages= 已失效的设备内存页列表。 Call --help-query-retired-pages for more info. --query-remapped-rows= 有关重新映射行的信息。 Call --help-query-remapped-rows for more info. [强制性的] --format= 格式选项的逗号分隔列表: csv - comma separated values (MANDATORY) noheader - skip the first line with column headers nounits - don't print units for numerical values [加上] -i, --id= 以特定GPU或单元为目标。 -f, --filename= 登录到指定的文件,而不是标准输出。 -l, --loop= 以指定的第二个间隔探测,直到Ctrl+C。 -lms, --loop-ms= 以指定的毫秒间隔探测直到Ctrl+C。 设备修改选项: [任何一个] -pm, --persistence-mode= 设置持久性模式:0禁用,1启用 -e, --ecc-config= 切换ECC支持:0禁用,1启用 -p, --reset-ecc-errors= 重置ECC错误计数:0易失性,1聚合 -c, --compute-mode= 为计算应用程序设置模式: 0默认情况下,1EXCLUSIVE_THREAD(已弃用), 2禁止,3独占_ --gom= 设置GPU操作模式: 0/ALL_ON, 1/COMPUTE, 2/LOW_DP -r --gpu-reset 触发GPU的复位。 可用于在需要机器重新启动的情况下重置GPU硬件状态。 通常在发生双位ECC错误时有用。 复位操作并非保证在所有情况下都有效,应谨慎使用。 -vm --virt-mode= 切换到GPU虚拟化模式: 将GPU虚拟化模式设置为3VGPU或4VSGA GPU的虚拟化模式只能在其在虚拟机监控程序上运行时设置。 -lgc --lock-gpu-clocks= 将<minGpuClock,maxGpuClock>时钟指定为一对(例如1500,1500),以MHz为单位定义所需的锁定GPU时钟速度范围。 设置此选项将取代应用程序时钟,无论应用程序是否正在运行,都将生效。 输入也可以是单一的期望时钟值(例如,)。 -rgc --reset-gpu-clocks 将Gpu时钟重置为默认值。 -lmc --lock-memory-clocks= 将<minMemClock,maxMemClock>时钟指定为一对(例如5100,5100),以MHz为单位定义所需锁定内存时钟速度的范围。 输入也可以是单一的期望时钟值(例如)。 -rmc --reset-memory-clocks 将内存时钟重置为默认值。 -ac --applications-clocks= 将<memory,graphics>时钟指定为一对(例如2000,800),定义在GPU上运行应用程序时GPU的速度(以MHz为单位)。 -rac --reset-applications-clocks 将应用程序时钟重置为默认值。 -pl --power-limit= 以瓦特为单位指定最大功率管理限制。 -cc --cuda-clocks= 覆盖或恢复默认CUDA时钟。 在覆盖模式下,GPU在运行CUDA应用程序时时钟频率更高。 仅适用于从Volta系列开始的受支持设备。 需要管理员权限。 0/RESTORE_DEFAULT, 1/OVERRIDE -am --accounting-mode= 启用或禁用记帐模式:0禁用,1启用 -caa --clear-accounted-apps 清除缓冲区中所有已记帐的PID。 --auto-boost-default= 将默认的自动增强策略设置为0禁用或1启用,仅在最后一个增强客户端退出后强制更改。 --auto-boost-permission= 允许非管理员root控制自动升压模式:0不受限制,1受限制 -mig --multi-instance-gpu= 启用或禁用多实例GPU:0禁用,1启用 它需要root。 -gtt --gpu-target-temp= 设置GPU的GPU目标温度(摄氏度)。 需要管理员权限 [加可选] -i, --id= 以特定的GPU为目标。 -eow, --error-on-warning 返回警告的非零错误。 UNIT MODIFICATION OPTIONS: -t, --toggle-led= 设置单元LED状态: 0/绿色, 1/琥珀色 [加可选] -i, --id= 以特定单位为目标。 显示DTD选项: --dtd 打印设备DTD并退出。 [加可选] -f, --filename= 登录到指定的文件,而不是标准输出。 -u, --unit 显示单元,而不是设备,DTD。 --debug= 将加密的调试信息记录到指定文件。 统计:(实验) stats 显示设备统计信息。 "nvidia-smi stats -h"更多信息. 设备监控: dmon 以滚动格式显示设备统计信息。 "nvidia-smi dmon -h" for more information. daemon 作为守护进程在后台运行并监视设备。 这是一个实验特性。Windows baremetal不支持 "nvidia-smi daemon -h" for more information. replay 用于回放提取守护进程生成的持久性统计信息。 这是一个实验特性。 "nvidia-smi replay -h" for more information. 过程监控: pmon 以滚动格式显示进程统计信息。 "nvidia-smi pmon -h" for more information. 拓扑结构: topo 显示设备系统拓扑。 "nvidia-smi topo -h" for more information. 漏极状态: drain Displays修改电源空闲的GPU漏极状态。 "nvidia-smi drain -h" for more information. NVLINK: nvlink 显示设备nvlink信息。 "nvidia-smi nvlink -h" for more information. 时钟: clocks 控制和查询时钟信息。 "nvidia-smi clocks -h" for more information. 编码器会话: encodersessions 显示设备编码器会话信息。 "nvidia-smi encodersessions -h" for more information. FBC会议: fbcsessions 显示设备FBC会话信息。 "nvidia-smi fbcsessions -h" for more information. GRID vGPU: vgpu 显示vGPU信息。 "nvidia-smi vgpu -h" for more information. MIG: mig 为MIG管理提供控制。 "nvidia-smi mig -h" for more information. 计算策略: compute-policy 控制和查询计算策略。 "nvidia-smi compute-policy -h" for more information. 升压滑块: boost-slider 控制和查询boost滑块。 "nvidia-smi boost-slider -h" for more information. 电源提示: power-hint 估计GPU功耗。 "nvidia-smi power-hint -h" for more information. 基本时钟: base-clocks 查询GPU基本时钟。 "nvidia-smi base-clocks -h" for more information. Please see the nvidia-smi(1) manual page for more detailed information.