서비스 오류 대응¶
서비스 연결 오류 확인¶
# 서비스 목록 확인
kubectl get svc -n {namespace명}
# 서비스 상세 및 엔드포인트 확인
kubectl describe svc {service명} -n {namespace명}
# 서비스 엔드포인트 (파드 연결) 확인
kubectl get endpoints {service명} -n {namespace명}
Runway 서비스 컴포넌트 오류¶
Runway 운영 관련 주요 서비스는 마스터 노드에서 동작합니다. 서비스별 파드 상태를 확인합니다.
# Runway 관련 파드 전체 확인
kubectl get pods -n runway
# 특정 서비스 파드 상세 확인
kubectl describe pod {pod명} -n runway
# 서비스 로그 확인
kubectl logs {pod명} -n runway
주요 서비스별 확인 포인트¶
| 서비스 | 네임스페이스 | 확인 사항 |
|---|---|---|
| MLflow | runway-applications |
실험 데이터 접근, SeaweedFS/PostgreSQL 연결 |
| Airflow | runway-applications |
DAG 실행 상태, 스케줄러 동작 여부 |
| PostgreSQL (CNPG) | runway |
DB 연결, 디스크 사용량 |
| OpenSearch | runway |
인덱스 상태, 클러스터 health |
| SeaweedFS | runway-applications |
스토리지 용량, 접근 권한 |
| Gitea | runway-applications |
이미지 풀/푸시 가능 여부 |
| Keycloak | runway |
인증 서비스 응답 여부 |
네트워크/Istio 오류¶
서비스 간 통신 오류는 Istio 설정을 확인합니다.
# VirtualService 확인
kubectl get virtualservice -A
# DestinationRule 확인
kubectl get destinationrule -A
# Istio sidecar 주입 여부 확인
kubectl get pods -n {namespace명} -o jsonpath='{range .items[*]}{.metadata.name}{"\t"}{.spec.containers[*].name}{"\n"}{end}'
데이터베이스 연결 오류¶
# PostgreSQL 파드 확인
kubectl get pods -n runway -l app=postgresql
# PostgreSQL 접속 테스트
kubectl exec -it {postgresql-pod명} -n runway -- psql -U postgres -c '\l'
스토리지 오류¶
# PVC 상태 확인
kubectl get pvc -A
# PV 상태 확인
kubectl get pv
# Rook-Ceph 클러스터 상태
kubectl get cephcluster -n rook-ceph