기간: 2020년
역할: 모델 모니터링 플랫폼(DMS) 설계 및 기능 정의, 서비스 헬스/데이터 헬스 지표 구성, Alert & Drift 모듈 설계
✅ 프로젝트 배경
목적: 다양한 AI 모델이 운영되는 환경에서 성능 저하·데이터 변질 등을 실시간 감지하는 모니터링 시스템 구축
- 학습된 모델이 서비스 환경에 배포된 이후에도 데이터 변화나 성능 저하를 자동 탐지할 수 있는 구조 필요
- 모델 단위로 서비스 상태 / 데이터 상태 / 예측 결과 상태를 구분해 실시간 진단 가능해야 함
- MLOps 관점에서 운영 가능성 + 확장성 + 알람 설정을 갖춘 시스템 설계 목표
✨ 사용 기술 스택
- 플랫폼 구조: K8s + Containerized Model 운영 구조
- 지표 수집/처리: 모델별 Log 기반 Metric 수집, Redis, TimescaleDB
- 모니터링 지표: Serving vs Training Drift, Output Drift, Schema Error 등 커스텀 지표
- 시각화/알림: 실시간 대시보드, Drift 알람 설정 (Webhook 연동)
- 예측 결과 관리: Label Upload 및 실제값 반영 기능, Performance 업데이트 처리
🎯 핵심 성과 요약
운영 중인 AI 모델들의 서비스/데이터/모델 상태를 실시간 진단·관리할 수 있는 플랫폼 완성
| 항목 |
기능 |
| 서비스 상태 모니터링 |
Traffic, Latency, Error 등 지표 시각화 |
| 데이터/모델 헬스 지표 |
Output Drift, Schema Error, Feature Drift 등 제공 |
| 모델 성능 관리 |
예측 결과 수집 및 Label Upload 통한 성능 업데이트 |
| Alert 시스템 |
Drift/오류 감지 시 Webhook 알림 전송 및 임계값 설정 가능 |
| 통합 대시보드 |
모델별 상태 요약 및 지표 통합 뷰 제공 |
🔍 주요 기능별 성과