오랜만에 구독자님과 만나는 게 반가워 TMI로 3픽레터를 시작하겠습니다. 다음 달이면 벌써 민족 대명절 추석입니다. 저는 본가가 지방이라 매년 두 번, 명절에 집에 내려가기 위해 KTX 티켓팅(a.k.a 대국민 티켓 전쟁)에 참전합니다. 매년 두 번 티켓팅에 참전할 때마다 분당 300만이 넘는 트랜잭션을 처리하는 코레일 명절 기차표 예매 서비스의 스케일에 매번 감탄합니다.
의외라면 의외일 수 있는데요, 코레일 시스템은 클라우드 기반 서비스가 아닙니다. 클라우드로 전환하지 않는 데는 여러 사정이 있을 거라 생각합니다. 다만 한 가지 확실한 것은, 현재의 온프레미스 환경에서 대국민 이벤트에 장애 없이 매년 제공하는 코레일 담당자 분들이 대단하다는 것입니다. (이 자리를 통해 경의를 표합니다)
이번 3픽레터에서는 시스템 장애를 막는 방법부터 사용자가 늘어나고, 대국민 서비스를 안정적으로 제공하기 위해 모니터링 도입을 검토한 와탭의 고객사례를 소개합니다.
#1. 주제픽. 시스템 장애, 당황하지 말고 급할수록 처음으로 돌아가세요
대용량 인프라를 기반으로 운영되는 대형 서비스에서 장애가 터지면 작게는 서비스 일부에서, 크게는 서비스 전체로 번지기 때문에 개발자 혹은 운영자라면 당황할 수밖에 없습니다. 여기에 어디서 어떻게 문제(장애) 원인을 찾지 못해 더 막막하게 느낀 경험이 한 번 쯤은 있을 것 같습니다. 이번 주제 픽에서는 시스템 장애가 발생했을 때 당황하지 말고 처음으로 돌아가 문제를 정의하는 일부터 시작하는 것을 추천합니다.
먼저 문제(장애)란 무엇일까요? 문제란 현재 상태와 목표 상태의 불일치하는 상태를 뜻합니다. 그렇다면 여기에서 뜻하는 현재 상태란 무엇일까요? 현재 상태란 그 말 그대로 성능 관점에서 보는 성능의 현재 상태를 뜻합니다. 현재 처리량이 얼마인지, 어떤 속도를 가지고 있는지 등의 상태를 말한다고 생각하면 쉽습니다.
문제가 정의되기 위해서는 현재 상태에 대한 측정이 굉장히 중요한데요. 아까 문제(장애)는 목표 상태와 현재 상태의 불일치라고 말씀드렸습니다. 이 문제를 정의하기 위해서는 목표 상태에 대한 결정이 필요합니다. 예를 들면 현재 처리량은 10 TPS이고, 목표 처리량은 100 TPS라고 가정할 경우, 90 TPS는 미달되는 것이 문제라고 정의를 내릴 수 있습니다.
하지만 실질적으로 성능 테스트를 거치지 않으면 처리량과 같은 현재 상태의 파악이 어렵고, 레거시 시스템에 대한 성능 분석과 추가되는 여러 요인 종합해야 목표 수립이 가능합니다. 그래서 일반적으로 문제를 정의하는 것은 어려운 일입니다. 문제(장애)가 발생했을 때 이후의 장애 해결 활동 유형과 해결하기 위한 꿀팁을 아래에서 확인해 보세요.
와탭랩스의 고객사 한국조폐공사에서는 화폐, 여권, 주민등록증 등 실물경제 기반의 제품 제조 및 공급 뿐만 아니라 모바일 신분증, 지역 디지털 플랫폼, 전자서명 인증 서비스 등 신규 사업을 추진하며 디지털 플랫폼 기업으로 거듭나고 있습니다.
특히, 한국조폐공사에서 운영하는 쇼핑몰이 기념메달, 한정판 주화 등으로 국민 및 소비자의 주목을 받으면서 접속자가 늘어나고 서비스가 커지기 시작했습니다. 많은 접속자들이 서비스 이용에 불편함이 없도록 문제를 해결하고 성능을 안정적으로 관리할 필요성을 느껴 모니터링 도입을 검토하셨다고 합니다. 대국민 서비스에서 더 안정적인 서비스를 고객에게 제공하기 위해 일찍이 모니터링을 사용한 한국조폐공사 사례를 확인해 보세요.
디지털 트랜스포메이션의 핵심은 IT 현대화로, 비즈니스 요구 사항에 빠르게 대응해야 합니다. 디지털 트랜스포메이션에 걸맞게 개별 모니터링 툴에서 통합된 모니터링 플랫폼을 도입해야 기업은 핵심 역량에 집중할 수 있습니다.
WhaTap Moni Day에서는 기업이 핵심 역량에 집중할 수 있도록 현대화된 모니터링 플랫폼과 모니터링 플랫폼 도입 사례를 소개할 예정입니다. 한정된 좌석으로 인해 빠르게 등록하시면 참여 확률이 높아지니, 3픽레터 구독자님들을 대상으로 얼리버드 신청을 시작합니다😊😊 (참가 확정 안내 메일은 개별 발송합니다)