From 3f618917249d3adc960ced2fe6d4c3b57f041c1a Mon Sep 17 00:00:00 2001 From: dandyrilla Date: Mon, 17 Jul 2023 14:56:43 +0900 Subject: [PATCH] Use column with upto 120 --- _posts/2023-07-09-nvidia-smi.md | 43 ++++++++++++++------------------- 1 file changed, 18 insertions(+), 25 deletions(-) diff --git a/_posts/2023-07-09-nvidia-smi.md b/_posts/2023-07-09-nvidia-smi.md index 8653d62..2084d15 100644 --- a/_posts/2023-07-09-nvidia-smi.md +++ b/_posts/2023-07-09-nvidia-smi.md @@ -31,18 +31,15 @@ GPU 사용량은 아래 그림에서 **4B** 항목을 보시면 되고, GPU 메 ![image](/images/2023-07-09/nvidia-smi-sec2.png "Section 2, GPU info and physical status") -* **2A**: GPU 에 매겨지는 번호입니다. 여기에서는 총 8개의 GPU 가 보이며, 0 부터 7 까지의 번호가 - 매겨져 있습니다. -* **2B**: GPU 모델명을 나타냅니다. 모델명이 긴 경우 뒷부분이 잘려서 표시되는데, 이런 경우에는 - `nvidia-smi -L` 명령어로 전체 모델명을 확인할 수 있습니다. -* **2C**: Persistence Mode 를 의미합니다. GPU 커널 모듈의 활성화 상태가 표시됩니다. 기본적으로 - 커널 모듈은 해제되어 있는 상태(Off 표시)이며, GPU 를 사용하는 작업이 수행될 때 자동으로 커널 모듈을 - 활성화(On 표시)합니다. -* **2D**: GPU 마다 부착된 팬이 돌아가는 속도를 나타냅니다. GPU 온도가 높을수록 냉각을 위해 팬이 더 - 빠르게 돌아가게 됩니다. +* **2A**: GPU 에 매겨지는 번호입니다. 여기에서는 총 8개의 GPU 가 보이며, 0 부터 7 까지의 번호가 매겨져 있습니다. +* **2B**: GPU 모델명을 나타냅니다. 모델명이 긴 경우 뒷부분이 잘려서 표시되는데, 이런 경우에는 `nvidia-smi -L` 명령어로 전체 모델명을 확인할 수 + 있습니다. +* **2C**: Persistence Mode 를 의미합니다. GPU 커널 모듈의 활성화 상태가 표시됩니다. 기본적으로 커널 모듈은 해제되어 있는 상태(Off 표시)이며, GPU + 를 사용하는 작업이 수행될 때 자동으로 커널 모듈을 활성화(On 표시)합니다. +* **2D**: GPU 마다 부착된 팬이 돌아가는 속도를 나타냅니다. GPU 온도가 높을수록 냉각을 위해 팬이 더 빠르게 돌아가게 됩니다. * **2E**: GPU 온도입니다. 단위는 섭씨(℃)입니다. -* **2F**: GPU 성능 수준이 표시된 부분입니다. P0 (가장 높은 성능) 부터 P15 (가장 낮은 성능) 까지 - 표시될 수 있습니다만, 자주 볼 수 있는 성능 수준은 아래와 같습니다: +* **2F**: GPU 성능 수준이 표시된 부분입니다. P0 (가장 높은 성능) 부터 P15 (가장 낮은 성능) 까지 표시될 수 있습니다만, 자주 볼 수 있는 성능 수준은 + 아래와 같습니다: * P0/P1 - 최대 3D 성능 * P2/P3 - 균형적인 3D 성능 * P8 - 기본 HD 비디오 재생 @@ -54,21 +51,20 @@ GPU 사용량은 아래 그림에서 **4B** 항목을 보시면 되고, GPU 메 ![image](/images/2023-07-09/nvidia-smi-sec3.png "Section 3, GPU's PCIe bus address and memory usage") -* **3A**: GPU 가 장착된 PCIe 버스의 주소입니다. 이는 유지보수 시 GPU 의 위치를 알아내는 데 매우 - 중요한 정보로 사용됩니다. +* **3A**: GPU 가 장착된 PCIe 버스의 주소입니다. 이는 유지보수 시 GPU 의 위치를 알아내는 데 매우 중요한 정보로 사용됩니다. * **3B**: 해당 GPU 가 모니터 화면 출력에 사용되고 있는지의 여부입니다. On 또는 Off 로 표시됩니다. -* **3C**: 사용 가능한 GPU 메모리의 총 용량 대비 현재 사용량이 표시되고 있습니다. CPU 메모리와 - 마찬가지로 GPU 사용 시에도 GPU 메모리가 초과되지 않도록 신경써야 합니다. +* **3C**: 사용 가능한 GPU 메모리의 총 용량 대비 현재 사용량이 표시되고 있습니다. CPU 메모리와 마찬가지로 GPU 사용 시에도 GPU 메모리가 초과되지 않도록 + 신경써야 합니다. ### Section 4: GPU 사용량 및 멀티 인스턴스 정보 ![image](/images/2023-07-09/nvidia-smi-sec4.png "Section 4, GPU usage and multi instance info") -* **4A**: 연산하는 과정에서 GPU 에서 발생된 에러 정도를 나타낸 수치입니다. 0 부터 시작하여 에러가 - 발생할 수록 점점 증가하게 됩니다. 지원하지 않는 경우에는 N/A 로 표시됩니다. +* **4A**: 연산하는 과정에서 GPU 에서 발생된 에러 정도를 나타낸 수치입니다. 0 부터 시작하여 에러가 발생할 수록 점점 증가하게 됩니다. 지원하지 않는 + 경우에는 N/A 로 표시됩니다. * **4B**: GPU 사용량입니다. 0 ~ 100% 범위로 표시됩니다. -* **4C**: Compute Mode 라는 뜻으로, GPU 의 공유 접근 방법을 표시합니다. 기본값은 Default (0) - 로 표시되며, 이는 여러 스레드가 해당 GPU 를 동시에 공유하면서 사용할 수 있다는 의미입니다. +* **4C**: Compute Mode 라는 뜻으로, GPU 의 공유 접근 방법을 표시합니다. 기본값은 Default (0) 로 표시되며, 이는 여러 스레드가 해당 GPU 를 동시에 + 공유하면서 사용할 수 있다는 의미입니다. ### Section 5: GPU 를 사용 중인 프로세스들 @@ -76,14 +72,11 @@ GPU 사용량은 아래 그림에서 **4B** 항목을 보시면 되고, GPU 메 * **5A**: 특정 프로세스가 사용하고 있는 GPU 번호입니다. * **5B**: GPU Instance ID 를 의미하며, MIG 모드가 활성화 되어있을 때 표시됩니다. -* **5C**: Compute Instance ID 를 의미하며, 각각의 GPU instance 에 대해 매겨지는 compute - instance 의 번호입니다. +* **5C**: Compute Instance ID 를 의미하며, 각각의 GPU instance 에 대해 매겨지는 compute instance 의 번호입니다. * **5D**: 프로세스 ID 입니다. * **5E**: 프로세스가 사용하고 있는 GPU 모드 입니다. 다음의 3가지 값으로 표현됩니다. - * G: 그래픽(Graphics) 모드로, 비디오 렌더링을 위한 전문가용 3D 그래픽 또는 게임 사용 시에 주로 - 표시됩니다. - * C: 계산(Compute) 모드로, Tensorflow 나 Pytorch 등을 사용하는 딥러닝 모델의 학습 또는 - 인퍼런스 시에 주로 표시됩니다. + * G: 그래픽(Graphics) 모드로, 비디오 렌더링을 위한 전문가용 3D 그래픽 또는 게임 사용 시에 주로 표시됩니다. + * C: 계산(Compute) 모드로, Tensorflow 나 Pytorch 등을 사용하는 딥러닝 모델의 학습 또는 인퍼런스 시에 주로 표시됩니다. * C+G: 위의 두 모드가 동시에 사용될 때 표시됩니다. * **5F**: 프로세스 이름입니다. 실행한 명령어가 표시됩니다. * **5G**: 해당 프로세스의 GPU 메모리 사용량입니다.