Re-Calibration 머신러닝 모델의 확률 보정 방법론
Information
| 일자 | 2026년 06월 08일 |
|---|---|
| 발표자 | 최예은 |
Video
Overview
이 발표는 머신러닝 예측 모델의 확률값 신뢰도를 평가하는 캘리브레이션(Calibration)의 개념 및 평가 지표를 설명하고, 예측 확률을 실제 관찰 비율에 맞게 사후 교정하는 리캘리브레이션(Recalibration)의 주요 방법론을 제시합니다.
캘리브레이션(Calibration) 개념 및 평가
- 개념: 모델이 예측한 확률과 모집단에서 실제로 관찰된 이벤트 발생 비율 사이의 일치 정도를 의미
- 목적: 모델의 예측값이 실제 발생 확률로 해석될 수 있는지 확률값 자체의 신뢰도 평가
- 시각적 평가: 예측 스코어 대비 실제 비율이 y=x 선을 얼마나 잘 따라가는지 확인하는 캘리브레이션 커브(Calibration Curve) 및 릴라이어빌리티 다이어그램(Reliability Diagram) 활용
- 수치적 평가: 오차 절댓값의 평균인 ICI, 이상치 영향을 줄인 중앙값 E50, 최악의 케이스를 확인하는 90분위수 E90 지표 활용
리캘리브레이션(Recalibration) 개념 및 기본 조건
- 개념: 기학습된 모델의 출력 점수나 확률을 실제 관측 데이터에 맞게 변환 함수를 적용하여 사후 교정하는 과정
- 데이터 조건: 모델의 과적합(Overfitting)을 방지하기 위해 학습 데이터와 완전히 분리된 별도의 재보정용 데이터 사용 필수
리캘리브레이션 주요 방법론 시그모이드 피팅(Sigmoid Fitting): 모델의 예측 점수를 시그모이드 함수에 피팅하여 0과 1 사이의 곡선 형태 확률로 변환하는 방법
- 아이소토닉 회귀(Isotonic Regression): PAB(PAV) 알고리즘을 활용해 단조성을 위반하는 인접 샘플들을 평균화하며, 계단 형태의 단조 증가 함수로 맵핑하는 비모수적 방법
랜덤 포레스트(Random Forest) 적용 리캘리브레이션
- 엘칸(Elkan) 방법론: 두 모집단 간 모든 공변량 분포가 동일하다는 전제하에, 전체 사건 발생 비율의 차이만을 수식에 대입하여 확률 교정
- 로지스틱 회귀 변환 방법: 공변량 분포가 다를 때 적용하며, 개별 트리의 마지막 리프 노드들을 더미 변수로 변환하고 다중공선성을 제거한 뒤 로지스틱 회귀 모델로 재학습