1단계. 사전 준비¶

vllm에서 모델을 실행하기 위한 파일을 PVC에 미리 준비합니다.

리소스 이름 중복 주의

아래 예시에서 사용된 리소스 이름(Deployment, Service, VirtualService, PVC)과 URL을 동일하게 사용하지 마세요. 동일한 네임스페이스에 동일한 이름으로 kubectl apply할 경우 기존 리소스가 업데이트됩니다. 별도의 네임스페이스를 생성하거나 이름을 변경하여 배포하세요.

모델 파일 준비¶

vllm이 사용하는 PVC 경로에 모델 weight 파일을 미리 업로드해야 합니다. 모델에 따라 추가 인코딩 파일이 필요한 경우도 있습니다.

PVC 경로: /apps/local-path-provisioner/pvc-<PVC_ID>_llm_vllm-cache
모델 weight 경로: /apps/local-path-provisioner/pvc-<PVC_ID>_llm_vllm-cache/huggingface/hub

(선택) PVC 생성¶

기존에 생성된 PVC를 사용하지 않고 별도의 PVC를 사용할 경우 아래 manifest를 참고하여 생성합니다.

kind: PersistentVolumeClaim
metadata:
  name: vllm-cache
  namespace: llm
spec:
  accessModes:
  - ReadWriteMany
  resources:
    requests:
      storage: 2Ti
  storageClassName: local-path-shared
  volumeMode: Filesystem

kubectl apply -f pvc.yaml