[GCP] Google Cloud TPU 사용률 확인 (Utilization Check) 본문

GCP

[GCP] Google Cloud TPU 사용률 확인 (Utilization Check)

최재강 2021. 11. 9. 15:55

Google TPU의 사용률이 어떻게 되는 지 체크하는 방법에 대해 소개한다.

Gcloud 설정

우선 현재 환경에 gcloud가 설치되어 있어야 한다. 환경 설정을 하지 않았다면 아래의 링크에 포스팅 해두었으니 참고바란다.
https://manchann.tistory.com/24

Cloud-tpu-profiler 설치

pip install cloud-tpu-profiler

사용률 확인

TPU 작업을 실행한 후 따로 터미널을 켜서 해당 명령어를 입력한다.

capture_tpu_profile --tpu="TPU 이름"  --monitoring_level=2 --num_queries 10000

tpu 옵션에는 생성한 google tpu의 이름을 넣어 connect가 이루어지도록 한다.

monitoring_level 옵션은 '1', '2'가 존재하는데 '2'가 좀 더 자세한 결과를 나타내므로 대부분 '2'를 사용하는 듯 하다.

capture_tpu_profile은 1초마다 사용률을 갱신하여 터미널에 결과를 나타내주게 되는데 num_queries는 최대 몇번까지 나타낼 지 결정하는 옵션이다. default가 100번 이여서 TPU 작업이 끝나기도 전에 프로세스가 끝나버리기 때문에 10000으로 설정하였다.

결과 예시

아래와 같이 TPU version, cores 수와 더불어 Utilization of TPU Matrix Units을 확인 가능하다.

TPU type: TPU v2
Number of TPU Cores: 8
TPU idle time (lower is better): 0.091%
Utilization of TPU Matrix Units is (higher is better): 10.7%
Step time: 1.95 kms (avg), 1.90kms (minute), 2.00 kms (max)
Infeed percentage: 87.5% (avg). 87.2% (min), 87.8 (max)

참조

Comments