Skip to content

Commit

Permalink
Use column with upto 120
Browse files Browse the repository at this point in the history
  • Loading branch information
dandyrilla committed Jul 17, 2023
1 parent 6d951bb commit 3f61891
Showing 1 changed file with 18 additions and 25 deletions.
43 changes: 18 additions & 25 deletions _posts/2023-07-09-nvidia-smi.md
Original file line number Diff line number Diff line change
Expand Up @@ -31,18 +31,15 @@ GPU 사용량은 아래 그림에서 **4B** 항목을 보시면 되고, GPU 메

![image](/images/2023-07-09/nvidia-smi-sec2.png "Section 2, GPU info and physical status")

* **2A**: GPU 에 매겨지는 번호입니다. 여기에서는 총 8개의 GPU 가 보이며, 0 부터 7 까지의 번호가
매겨져 있습니다.
* **2B**: GPU 모델명을 나타냅니다. 모델명이 긴 경우 뒷부분이 잘려서 표시되는데, 이런 경우에는
`nvidia-smi -L` 명령어로 전체 모델명을 확인할 수 있습니다.
* **2C**: Persistence Mode 를 의미합니다. GPU 커널 모듈의 활성화 상태가 표시됩니다. 기본적으로
커널 모듈은 해제되어 있는 상태(Off 표시)이며, GPU 를 사용하는 작업이 수행될 때 자동으로 커널 모듈을
활성화(On 표시)합니다.
* **2D**: GPU 마다 부착된 팬이 돌아가는 속도를 나타냅니다. GPU 온도가 높을수록 냉각을 위해 팬이 더
빠르게 돌아가게 됩니다.
* **2A**: GPU 에 매겨지는 번호입니다. 여기에서는 총 8개의 GPU 가 보이며, 0 부터 7 까지의 번호가 매겨져 있습니다.
* **2B**: GPU 모델명을 나타냅니다. 모델명이 긴 경우 뒷부분이 잘려서 표시되는데, 이런 경우에는 `nvidia-smi -L` 명령어로 전체 모델명을 확인할 수
있습니다.
* **2C**: Persistence Mode 를 의미합니다. GPU 커널 모듈의 활성화 상태가 표시됩니다. 기본적으로 커널 모듈은 해제되어 있는 상태(Off 표시)이며, GPU
를 사용하는 작업이 수행될 때 자동으로 커널 모듈을 활성화(On 표시)합니다.
* **2D**: GPU 마다 부착된 팬이 돌아가는 속도를 나타냅니다. GPU 온도가 높을수록 냉각을 위해 팬이 더 빠르게 돌아가게 됩니다.
* **2E**: GPU 온도입니다. 단위는 섭씨(℃)입니다.
* **2F**: GPU 성능 수준이 표시된 부분입니다. P0 (가장 높은 성능) 부터 P15 (가장 낮은 성능) 까지
표시될 수 있습니다만, 자주 볼 수 있는 성능 수준은 아래와 같습니다:
* **2F**: GPU 성능 수준이 표시된 부분입니다. P0 (가장 높은 성능) 부터 P15 (가장 낮은 성능) 까지 표시될 수 있습니다만, 자주 볼 수 있는 성능 수준은
아래와 같습니다:
* P0/P1 - 최대 3D 성능
* P2/P3 - 균형적인 3D 성능
* P8 - 기본 HD 비디오 재생
Expand All @@ -54,36 +51,32 @@ GPU 사용량은 아래 그림에서 **4B** 항목을 보시면 되고, GPU 메

![image](/images/2023-07-09/nvidia-smi-sec3.png "Section 3, GPU's PCIe bus address and memory usage")

* **3A**: GPU 가 장착된 PCIe 버스의 주소입니다. 이는 유지보수 시 GPU 의 위치를 알아내는 데 매우
중요한 정보로 사용됩니다.
* **3A**: GPU 가 장착된 PCIe 버스의 주소입니다. 이는 유지보수 시 GPU 의 위치를 알아내는 데 매우 중요한 정보로 사용됩니다.
* **3B**: 해당 GPU 가 모니터 화면 출력에 사용되고 있는지의 여부입니다. On 또는 Off 로 표시됩니다.
* **3C**: 사용 가능한 GPU 메모리의 총 용량 대비 현재 사용량이 표시되고 있습니다. CPU 메모리와
마찬가지로 GPU 사용 시에도 GPU 메모리가 초과되지 않도록 신경써야 합니다.
* **3C**: 사용 가능한 GPU 메모리의 총 용량 대비 현재 사용량이 표시되고 있습니다. CPU 메모리와 마찬가지로 GPU 사용 시에도 GPU 메모리가 초과되지 않도록
신경써야 합니다.

### Section 4: GPU 사용량 및 멀티 인스턴스 정보

![image](/images/2023-07-09/nvidia-smi-sec4.png "Section 4, GPU usage and multi instance info")

* **4A**: 연산하는 과정에서 GPU 에서 발생된 에러 정도를 나타낸 수치입니다. 0 부터 시작하여 에러가
발생할 수록 점점 증가하게 됩니다. 지원하지 않는 경우에는 N/A 로 표시됩니다.
* **4A**: 연산하는 과정에서 GPU 에서 발생된 에러 정도를 나타낸 수치입니다. 0 부터 시작하여 에러가 발생할 수록 점점 증가하게 됩니다. 지원하지 않는
경우에는 N/A 로 표시됩니다.
* **4B**: GPU 사용량입니다. 0 ~ 100% 범위로 표시됩니다.
* **4C**: Compute Mode 라는 뜻으로, GPU 의 공유 접근 방법을 표시합니다. 기본값은 Default (0)
로 표시되며, 이는 여러 스레드가 해당 GPU 를 동시에 공유하면서 사용할 수 있다는 의미입니다.
* **4C**: Compute Mode 라는 뜻으로, GPU 의 공유 접근 방법을 표시합니다. 기본값은 Default (0) 로 표시되며, 이는 여러 스레드가 해당 GPU 를 동시에
공유하면서 사용할 수 있다는 의미입니다.

### Section 5: GPU 를 사용 중인 프로세스들

![image](/images/2023-07-09/nvidia-smi-sec5.png "Section 5, List of processes using GPU")

* **5A**: 특정 프로세스가 사용하고 있는 GPU 번호입니다.
* **5B**: GPU Instance ID 를 의미하며, MIG 모드가 활성화 되어있을 때 표시됩니다.
* **5C**: Compute Instance ID 를 의미하며, 각각의 GPU instance 에 대해 매겨지는 compute
instance 의 번호입니다.
* **5C**: Compute Instance ID 를 의미하며, 각각의 GPU instance 에 대해 매겨지는 compute instance 의 번호입니다.
* **5D**: 프로세스 ID 입니다.
* **5E**: 프로세스가 사용하고 있는 GPU 모드 입니다. 다음의 3가지 값으로 표현됩니다.
* G: 그래픽(Graphics) 모드로, 비디오 렌더링을 위한 전문가용 3D 그래픽 또는 게임 사용 시에 주로
표시됩니다.
* C: 계산(Compute) 모드로, Tensorflow 나 Pytorch 등을 사용하는 딥러닝 모델의 학습 또는
인퍼런스 시에 주로 표시됩니다.
* G: 그래픽(Graphics) 모드로, 비디오 렌더링을 위한 전문가용 3D 그래픽 또는 게임 사용 시에 주로 표시됩니다.
* C: 계산(Compute) 모드로, Tensorflow 나 Pytorch 등을 사용하는 딥러닝 모델의 학습 또는 인퍼런스 시에 주로 표시됩니다.
* C+G: 위의 두 모드가 동시에 사용될 때 표시됩니다.
* **5F**: 프로세스 이름입니다. 실행한 명령어가 표시됩니다.
* **5G**: 해당 프로세스의 GPU 메모리 사용량입니다.

0 comments on commit 3f61891

Please sign in to comment.