장애 탐지 → 장애 전파 → 장애 해결 → 장애 보고 → 장애 회고
장애 탐지
2022.08.04
환경
•
Amazon Linux 2 AMI - Kernel 5.10
•
JDK 1.8
•
Spring Boot 2.4
1.
Third-party API를 호출 시, 아래와 같은 장애가 발생
javax.net.ssl.SSLHandshakeException: sun.security.validator.ValidatorException: PKIX path building failed: sun.security.provider.certpath.SunCertPathBuilderException: unable to find valid certification path to requested target
예외 발생
2.
SSL 인증서로 기존 “Comodo” 인증서가 “Sectigo”로 변경되면서, 리눅스 시스템 내 Root/chain 인증서가 반영이 안되었고, JAVA SSL HandshakeException 및 Curl 오류가 발생
SSL 인증서
장애 전파
1.
Slack “Operation Channel”을 통해서 비즈니스 이해관계자에게 장애 상황 전파 (@here 활용)
2.
장애 API와 관련된 서비스 중단 후, 우회 서비스 제공
장애 해결
두 가지 방식의 솔루션 가능
장애 보고
•
장애 해결 이후, 장애 이해관계자에게 Slack 채널을 통해서 장애 해결 전파 (@here 활용)
•
장애 관련 Side-Effect 를 CX팀 Operation을 통해 해결
장애 회고
장애와 예외에 대한 커뮤니케이션을 다음과 방식으로 변경
AS-IS
•
장애관련 예외에 대해서도, 단순하게 예외가 발생하면 예외 채널을 통해서 공유되는 방식 사용
TO-BE
•
“Side-Effect”가 큰 특정 장애에 대해서는 예외를 더 잘 전달하기 위해 멘션 적용