Prometheus를 운영하다 보면 어느 순간 쿼리 응답이 느려지거나, 메모리 사용량이 치솟으며 서버가 강제 종료(OOM)되는 상황을 맞이하게 됩니다. 이는 대부분 데이터의 '양'이 아닌 '구조'의 문제입니다. 오늘은 Prometheus 운영의 최대 난제인 카디널리티(Cardinality) 관리와 성능 최적화 비법을 공개합니다.1. Prometheus의 최대 적: High Cardinality 폭발'카디널리티'란 하나의 메트릭 이름 아래 생성되는 고유한 레이블 조합의 총개수를 의미합니다.위험한 레이블 사용의 예: * http_request_total{user_id="12345"}: 사용자 ID는 수백만 개가 될 수 있습니다.client_ip="1.2.3.4": 방문자 IP를 레이블로 넣는 순간 Prome..