0.5.0b 핫픽스 관련 서버 장애 안내타임라인
2026년 6월 4일(목) 07:45 (한국 시각)에 배포한 핫픽스로 인해 플레이어 다수의 연결이 해제되는 문제가 발생했습니다.
연결 해제의 영향을 받지 않은 사용자에게도 서버 성능 저하가 발생했습니다. 저희는 07:54에 관련 보고를 조사하기 시작했습니다. 충돌 발생이 증가한 것을 확인했지만, 이 시점에는 얼마나 많은 플레이어들이 영향을 받았는지 명확하지 않았습니다. 이에 따라 저희는 08:10 (한국 시각)에 해당 핫픽스를 롤백하기로 결정했습니다. 이후 해당 장애는 08:54 (한국 시각)이 되어서야 완전히 해결되었으며, 이 시간 동안 많은 플레이어가 로그인할 수 없었습니다. 본 공지사항에서는 어떤 일이 발생했고, 향후 동일한 상황이 발생하지 않도록 어떤 조치를 진행 중에 있는지 설명드리고자 합니다. 장애 내용
안타깝게도 롤백은 적시에 완료되지 않았습니다.
08:24 (한국 시각)에 저희는 문제가 잘못된 핫픽스로 인해 생성된 크래시 덤프가 다수의 서버 하드 디스크를 가득 채운 것이 원인임을 확인했습니다. 크래시 덤프는 서버 충돌의 원인을 디버깅할 수 있게 해주는 파일이지만, 충돌한 프로세스의 전체 메모리를 포함하고 있어 크기가 상당히 큽니다. 이번 경우에는 핫픽스로 인해 생성된 크래시 덤프의 양이 너무 많아, 핫픽스를 되돌리는 작업도 막히게 되었습니다. 크래시 덤프가 서버의 남은 공간을 모두 채웠을 뿐만 아니라, 대용량 크래시 덤프가 동시에 다수 기록되면서 서버 성능이 크게 저하되어 문제 해결이 더욱 느려졌습니다. 시스템 관리자들이 이 상황을 통제하고 서버를 정상 상태로 되돌리는 데 상당한 시간이 소요되었으며, 이후 이전 버전으로 롤백하고 08:54 (한국 시각)에 서비스를 복구했습니다. 이 시간 동안 크래시 덤프 기록으로 인해 발생한 추가 부하로, 연결 해제되지 않은 다른 플레이어들도 일부 서버에서 성능 저하를 겪었습니다. 원인
조사 결과, 최초 문제는 핫픽스에서 패시브 스킬 트리와 관련된 데이터 파일이 누락되어 발생한 것으로 확인되었습니다.
스테이징 빌드와 프로덕션 빌드 사이에 패키징 시스템의 사소한 차이가 있어, 해당 파일이 프로덕션 핫픽스 패키지에 잘못 누락되었습니다. 이로 인해 저희가 신규 노드를 추가한 패시브 트리 영역을 포함하는 반경 주얼을 보유한 플레이어가 서버 충돌을 유발하게 되었습니다. 개선 사항
이번 장애에 대응하여 몇 가지 개선을 진행할 예정입니다.
가장 중요한 변경 사항은 크래시 덤프가 서버 디스크를 가득 채울 수 없도록 방지하는 것입니다. 저희는 이전까지 이러한 유형의 장애를 경험한 적이 없었으며, 이에 대해 전혀 대비되어 있지 않았습니다. 두 번째는 배포 전에 더 많은 작업을 미리 수행하여 롤백을 더 빠르게 진행할 수 있도록 롤백 시스템의 속도를 개선하는 것입니다. 이것이 이번 문제의 주된 원인은 아니었지만, 문제가 더 빠르게 해결되는 데 도움이 되었을 것입니다. 이번 장애로 불편을 드린 점 사과드리며, 향후 이와 같은 상황이 발생하지 않도록 노력하겠습니다. |
|

