헬스체크는 인스턴스의 '서비스 가능 상태'를 어떻게 정의하느냐에 따라 장애 전파와 오탐 격리의 균형이 갈린다.

기본 헬스체크는 인스턴스가 지금 트래픽을 받아도 되는지 주기적으로 판별하는 신호다. 보통 liveness(프로세스 생존), readiness(요청 처리 준비), startup(초기 기동 완료) 세 종류로 나눠서 각각 다른 동작과 연결한다. liveness가 깨지면 인스턴스를 재시작하고, readiness가 깨지면 트래픽만 끊는다. 핵심은 "살아 있음"이 아니라 "서비스 가능 상태"를 운영 정책과 맞춰 정의하는 일이다. 자세히 어떤 의존성까지 readiness에 포함할지가 가장 어려운 결정이다. DB·캐시·외부 API를 전부 묶으면 외부 장애 한 번에 전 인스턴스가 한꺼번에 빠지면서 더 큰 장애를 만든다. 반대로 프로세스 생존만 보면 죽은 채로 트래픽을 받아 부분 장애가 곪는다. 실패 임계치와 재시도 간격도 같이 본다 — 너무 민감하면 정상 인스턴스가 튕겨 나가고, 너무 둔하면 격리가 늦는다. 더 깊이 로드밸런서·오케스트레이터마다 헬스체크 시맨틱이 다르다. ALB는 연속 실패 카운트, k8s는 readinessProbe와 endpoints 컨트롤러 사이에 전파 지연이 있고, 그 지연만큼 503이 새어 나간다. 배포 중에는 startup probe로 초기화 시간을 확보하지 않으면 롤링 업데이트가 끝없이 재시작 루프를 도는 일이 흔하다. SLO와 격리-복귀 시간이 맞아야 헬스체크가 안전장치로 작동한다.

질문 목록Infra

Infra

헬스체크란 무엇이며 왜 필요한가요?

실무5/5

설계4/5

인간4/5

기초2/5

면접관의 질문 의도

헬스체크를 개념 수준이 아니라 운영 신호로 다룰 수 있는지 본다. liveness/readiness 분리, 외부 의존성 포함 여부, 실패 임계치 결정 같은 운영 판단까지 짚는 사람과, 그저 "서버 살아 있나 확인하는 것" 수준에 머무는 사람을 가른다.

큐레이션 답변

학습 자료

헬스체크는 인스턴스가 지금 트래픽을 받아도 되는지 주기적으로 판별하는 신호다. 보통 liveness(프로세스 생존), readiness(요청 처리 준비), startup(초기 기동 완료) 세 종류로 나눠서 각각 다른 동작과 연결한다. liveness가 깨지면 인스턴스를 재시작하고, readiness가 깨지면 트래픽만 끊는다. 핵심은 "살아 있음"이 아니라 "서비스 가능 상태"를 운영 정책과 맞춰 정의하는 일이다.

좋은 답변 구조

01헬스체크가 풀려는 문제를 한 줄로 정의하고 liveness/readiness/startup 분리부터 짚는다
02트래픽 격리·재시작·롤링 배포 검증으로 신호가 어디에 쓰이는지 시나리오로 푼다
03외부 의존성을 readiness에 넣을지, 실패 임계치를 어떻게 잡을지 같은 의사결정 지점을 드러낸다
04과민 체크와 둔감 체크 사이의 트레이드오프로 마무리해 운영 관점을 보여준다

자주 실수하는 포인트

liveness와 readiness를 구분하지 않고 한 엔드포인트로 다 처리한다

DB·외부 API를 readiness에 다 묶어 외부 장애 한 번에 전 인스턴스를 동시에 떨어뜨린다

실패 임계치·재시도 간격을 정하지 않아 오탐 격리와 늑장 격리 사이에서 흔들린다

startup probe 없이 무거운 초기화 서비스를 배포해 롤링 업데이트가 재시작 루프에 빠진다

실무 맥락

롤링 배포 중 새 인스턴스가 트래픽을 받을 준비가 됐는지 판별해야 하는 상황
오토스케일링으로 새로 뜬 노드를 로드밸런서 풀에 안전하게 합류시켜야 하는 환경
DB·캐시 같은 외부 의존성 장애가 발생했을 때 격리 범위를 결정해야 하는 운영 환경
장애 인스턴스를 자동 재시작·격리해 SLO를 유지해야 하는 서비스

본인 경험에 녹이는 힌트

외부 API 장애로 readiness가 동시에 떨어져 더 큰 장애로 번진 경험이 있다면 의존성 포함 범위 결정 단서로 연결할 수 있다

롤링 배포 중 503이 새어 나갔던 경험을 startup probe·readiness 전파 지연과 엮어 풀 수 있다

헬스체크 임계치를 조정해 오탐 격리를 줄였던 경험은 SLO와 임계치 결정 사례로 가져갈 수 있다

Actuator·k8s probe로 헬스체크 엔드포인트를 직접 설계한 경험이 있다면 liveness/readiness 분리 기준을 자기 언어로 말할 수 있다

커뮤니티 인기 답변

전체 0개

아직 공개된 답변이 없어요. 첫 공개 답변을 남겨보세요.

헬스체크란 무엇이며 왜 필요한가요?

실무5/5

설계4/5

인간4/5

기초2/5

면접관의 질문 의도

큐레이션 답변

학습 자료

좋은 답변 구조

01헬스체크가 풀려는 문제를 한 줄로 정의하고 liveness/readiness/startup 분리부터 짚는다
02트래픽 격리·재시작·롤링 배포 검증으로 신호가 어디에 쓰이는지 시나리오로 푼다
03외부 의존성을 readiness에 넣을지, 실패 임계치를 어떻게 잡을지 같은 의사결정 지점을 드러낸다
04과민 체크와 둔감 체크 사이의 트레이드오프로 마무리해 운영 관점을 보여준다

자주 실수하는 포인트

liveness와 readiness를 구분하지 않고 한 엔드포인트로 다 처리한다

DB·외부 API를 readiness에 다 묶어 외부 장애 한 번에 전 인스턴스를 동시에 떨어뜨린다

실패 임계치·재시도 간격을 정하지 않아 오탐 격리와 늑장 격리 사이에서 흔들린다

startup probe 없이 무거운 초기화 서비스를 배포해 롤링 업데이트가 재시작 루프에 빠진다

실무 맥락

롤링 배포 중 새 인스턴스가 트래픽을 받을 준비가 됐는지 판별해야 하는 상황
오토스케일링으로 새로 뜬 노드를 로드밸런서 풀에 안전하게 합류시켜야 하는 환경
DB·캐시 같은 외부 의존성 장애가 발생했을 때 격리 범위를 결정해야 하는 운영 환경
장애 인스턴스를 자동 재시작·격리해 SLO를 유지해야 하는 서비스

본인 경험에 녹이는 힌트

외부 API 장애로 readiness가 동시에 떨어져 더 큰 장애로 번진 경험이 있다면 의존성 포함 범위 결정 단서로 연결할 수 있다

롤링 배포 중 503이 새어 나갔던 경험을 startup probe·readiness 전파 지연과 엮어 풀 수 있다

헬스체크 임계치를 조정해 오탐 격리를 줄였던 경험은 SLO와 임계치 결정 사례로 가져갈 수 있다

Actuator·k8s probe로 헬스체크 엔드포인트를 직접 설계한 경험이 있다면 liveness/readiness 분리 기준을 자기 언어로 말할 수 있다

커뮤니티 인기 답변

전체 0개

아직 공개된 답변이 없어요. 첫 공개 답변을 남겨보세요.

헬스체크란 무엇이며 왜 필요한가요?

면접관의 질문 의도

큐레이션 답변

좋은 답변 구조

자주 실수하는 포인트

실무 맥락

본인 경험에 녹이는 힌트

커뮤니티 인기 답변

관련 꼬리 질문

헬스체크란 무엇이며 왜 필요한가요?

면접관의 질문 의도

큐레이션 답변

좋은 답변 구조

자주 실수하는 포인트

실무 맥락

본인 경험에 녹이는 힌트

커뮤니티 인기 답변

관련 꼬리 질문