Skip to content

서비스 오류 대응

서비스 연결 오류 확인

# 서비스 목록 확인
kubectl get svc -n {namespace명}

# 서비스 상세 및 엔드포인트 확인
kubectl describe svc {service명} -n {namespace명}

# 서비스 엔드포인트 (파드 연결) 확인
kubectl get endpoints {service명} -n {namespace명}

Runway 서비스 컴포넌트 오류

Runway 운영 관련 주요 서비스는 마스터 노드에서 동작합니다. 서비스별 파드 상태를 확인합니다.

# Runway 관련 파드 전체 확인
kubectl get pods -n runway

# 특정 서비스 파드 상세 확인
kubectl describe pod {pod명} -n runway

# 서비스 로그 확인
kubectl logs {pod명} -n runway

주요 서비스별 확인 포인트

서비스 네임스페이스 확인 사항
MLflow runway-applications 실험 데이터 접근, SeaweedFS/PostgreSQL 연결
Airflow runway-applications DAG 실행 상태, 스케줄러 동작 여부
PostgreSQL (CNPG) runway DB 연결, 디스크 사용량
OpenSearch runway 인덱스 상태, 클러스터 health
SeaweedFS runway-applications 스토리지 용량, 접근 권한
Gitea runway-applications 이미지 풀/푸시 가능 여부
Keycloak runway 인증 서비스 응답 여부

네트워크/Istio 오류

서비스 간 통신 오류는 Istio 설정을 확인합니다.

# VirtualService 확인
kubectl get virtualservice -A

# DestinationRule 확인
kubectl get destinationrule -A

# Istio sidecar 주입 여부 확인
kubectl get pods -n {namespace명} -o jsonpath='{range .items[*]}{.metadata.name}{"\t"}{.spec.containers[*].name}{"\n"}{end}'

데이터베이스 연결 오류

# PostgreSQL 파드 확인
kubectl get pods -n runway -l app=postgresql

# PostgreSQL 접속 테스트
kubectl exec -it {postgresql-pod명} -n runway -- psql -U postgres -c '\l'

스토리지 오류

# PVC 상태 확인
kubectl get pvc -A

# PV 상태 확인
kubectl get pv

# Rook-Ceph 클러스터 상태
kubectl get cephcluster -n rook-ceph