ChatGPT 도입, 개발 환경 안정화, 그리고 서비스 모니터링의 진화 — 2023년 회고
들어가며
2023년은 기반을 다지는 해였다.
화려한 신규 사업보다는, 개발 환경 안정화, 서비스 성능 개선, 인증/인가 구조 분석 같은 기술 조직의 체력을 키우는 일에 집중했다. 주간 500 에러를 수십만 건에서 수천 건으로 줄이고, 대규모 트래픽 유입에 대한 대응 체계를 고도화하고, 10년 된 레거시의 인증 구조를 문서화했다.
동시에 ChatGPT가 세상을 뒤흔들면서, 크라우드펀딩 플랫폼에 AI를 어떻게 적용할 것인가에 대한 탐색도 시작되었다.
1. 개발 환경 안정화 TF
왜 개발 환경이 문제였는가
RC(Release Candidate) 환경이 불안정해서 개발자들이 테스트를 제대로 할 수 없는 상황이 반복되었다. RC3 환경에서 DB 동기화 문제, 추천 API 이상, 자동 머지/빌드 오류 등이 상시 발생.
TF 구성과 실행
2월, 개발 환경 안정화 TF를 구성하고 체계적으로 접근했다.
RC1, 2, 3 환경의 자동 머지/빌드 정책을 정리하고, RC3을 안정적인 테스트 환경으로 복원했다. 각 환경의 제약 사항도 문서화하여, 신규 개발자가 입사해도 바로 파악할 수 있게 했다.
개발 환경 안정화는 사용자에게 보이지 않지만, 개발 생산성에 직접적인 영향을 미친다. "RC에서 테스트가 안 돼서 라이브에서 버그가 발견됐다"는 상황을 원천 차단하는 것이 목표였다.
2. 서비스 성능 개선: 500 에러 97% 감소
모니터링 체계 강화
2023년에 가장 자랑스러운 성과 중 하나는 주간 500 에러를 수십만 건에서 5~6천 건으로 축소한 것이다.
ELK APM과 와탭(WhaTap)을 병행하여 서비스 모니터링 체계를 고도화했다. 내가 직접 주기적으로 모니터링 데이터를 분석하고, API 성능 이슈를 발굴하여 담당 팀에 공유하는 사이클을 운영했다.
| 시점 | 주간 500 에러 |
|---|---|
| 2023년 6월 | 수십만 건 |
| 2023년 9월 | 5,549건 (주간 1.1억 호출 대비) |
대규모 트래픽 대응
2023년에도 대규모 트래픽으로 인한 서비스 지연이 수차례 발생했다:
| 날짜 | 이벤트 | 동시 접속 | 대응 |
|---|---|---|---|
| 7/4 | 알림신청 1만 명 프로젝트 오픈 | 대규모 | 아카마이 대기실 준비, API 모니터링 |
| 7/29 | 캐시워크 돈버는퀴즈 연계 | 초대규모 | 사전 공유 없이 유입, 서비스 지연 10~15분 |
| 9/19 | 스페셜 얼리버드 프로젝트 오픈 | 4분간 14,814 PV | 서비스 지연 발생 |
특히 7/29 캐시워크 이벤트는 메이커가 사전 공유 없이 외부 이벤트를 단독 추진하여 대규모 트래픽이 유입된 케이스였다. 이를 계기로 대규모 트래픽 예상 시 사전 공유 프로세스를 강화했다.
API 성능 분석의 일상화
단발성 장애 대응이 아니라, 일상적 모니터링을 통한 선제적 성능 개선을 추구했다:
- 찜하기 API 평균 1초 이상 → 병목 원인 분석 (서비스 간 도메인 통신 지연)
- 친구 페이지 로딩 성능 → 로그인 상태에서의 추천 친구 API 지연 분석
- 이벤트 페이지 쿠폰 API → 알림톡 대량 발송 시점과 겹쳐 지연
- DNS 성능 분석 → isLoggedIn API의 클라이언트 100~200ms 지연 원인 규명
3. ChatGPT 서비스 활용 방안 검토
2023년 3월, AI의 파도
ChatGPT가 전 세계를 휩쓸면서, 3월에 데이터 팀과 함께 ChatGPT 서비스 활용 방안 브레인스토밍을 진행했다.
핵심 원칙을 세웠다:
"흥미 위주로 활용하기보다는 실 적용 시 임팩트 있는 포인트에 적용. 불확실성이 있으니 영향도가 적은 것부터 접목."
검토된 활용 방향:
- Non-Creative 영역부터 시작 — 영향도가 적고 자동화 효과가 큰 곳
- Fine-tuning 가능성 — 자사 데이터로 추가 학습하여 도메인 특화
- 프로젝트 스토리 작성 지원 — 메이커의 상세 페이지 작성을 AI가 보조
이 탐색이 이후 AI 추천 고도화(AWS Personalize 활용)와 GPT 어드바이저 서비스 개발로 이어졌다.
4. 레거시 인증/인가 구조 분석
CTO가 직접 코드를 읽다
하반기에는 10년 된 레거시의 인증/인가 구조를 직접 분석하고 문서화했다. PC/웹 로그인 상태 유지 문제, iOS WebView에서 세션이 풀리는 이슈, 앱-웹뷰 간 인증 토큰(wExternal) 구조 등이 얽힌 복합적인 문제를 해결하기 위한 선행 작업이었다.
분석한 영역:
| 문서 | 내용 |
|---|---|
| Filter/Servlet/Interceptor | web.xml의 5개 필터 구현 분석 |
| 로그인/로그아웃 | 웹(ajaxLoginProcess)과 앱(/api/login) 분리 구조 |
| 세션 구현 | 커스텀 HttpSession — Redis 캐시 기반 구현 |
| wExternal | 앱→웹뷰 전환 시 인증 유지를 위한 토큰 구조 |
관리자 역할이 커질수록 코드에서 멀어지기 쉽다. 하지만 핵심 아키텍처에 대한 이해 없이는 올바른 기술 의사결정을 할 수 없다. 특히 인증/인가 같은 횡단 관심사는 모든 서비스에 영향을 미치기에, CTO가 구조를 정확히 이해하고 있어야 한다.
5. 2023년을 돌아보며
타임라인으로 보는 1년
| 분기 | 주요 활동 |
|---|---|
| 1Q | 개발 환경 안정화 TF, 프로덕트 미팅 지속 운영, 상세 페이지 이동 동선 개선, ChatGPT 활용 방안 검토 |
| 2Q | 결제 수단 통합/확대 (카카오페이, 네이버페이), 메이커 부담 쿠폰 도입 검토, 서비스 배포 프로세스 개선 |
| 3Q | 대규모 트래픽 대응 (캐시워크, 알림신청 1만 건), 인증/인가 구조 분석, 500 에러 97% 감소 달성, 아카마이 대기실 대체 검토 |
| 4Q | 2024년 OKR 설정 (상세 PV 성장, 로그인 WAU), 서비스 모니터링 체계 고도화 |
배운 것들
1. 화려하지 않은 일이 가장 중요한 일이다
개발 환경 안정화, 500 에러 감소, 모니터링 체계 — 이런 일은 사용자에게 보이지 않고, 경영진에게 "와!" 하는 반응을 끌어내기도 어렵다. 하지만 이런 기반 작업 없이는 어떤 신기능도 안정적으로 동작하지 않는다.
2. 모니터링은 "보는 것"이 아니라 "분석하는 것"이다
대시보드를 만들어놓고 안 보면 의미가 없다. 주기적으로 데이터를 분석하고, 이상 징후를 발굴하고, 담당자에게 공유하는 사이클을 운영해야 실질적인 개선이 일어난다.
3. CTO도 때로는 코드를 읽어야 한다
인증/인가 구조처럼 시스템 전체에 영향을 미치는 핵심 아키텍처는 CTO가 직접 이해하고 있어야 한다. 추상적인 수준의 이해가 아니라, **코드 레벨에서 "이 요청이 어떤 경로로 인증되는가"**를 설명할 수 있어야 올바른 기술 방향을 잡을 수 있다.
마치며
2023년을 한 문장으로 요약하면, **"보이지 않는 곳을 단단하게 만든 해"**였다.
2019년부터 5년간, 성능 5배 개선 → 재택근무 체계 → 커머스 런칭 → PO 체제 전환까지 매년 큰 변화를 이끌어왔다. 2023년은 그 변화들이 안정적으로 동작할 수 있는 기반을 다진 해였다.
500 에러가 97% 줄었다는 것은, 그만큼 사용자가 "오류 없이 서비스를 이용한 시간"이 늘었다는 뜻이다. 개발 환경이 안정화되었다는 것은, 개발자들이 "테스트 환경 때문에 허비하는 시간"이 줄었다는 뜻이다.
좋은 기술 조직은 새 기능을 빠르게 만드는 곳이 아니라, 기존 기능이 안정적으로 동작하면서도 새 기능을 빠르게 만들 수 있는 곳이다.