Re-Calibration 머신러닝 모델의 확률 보정 방법론

2026-06-08 | Views:

일자	2026년 06월 08일
발표자	최예은

이 발표는 머신러닝 예측 모델의 확률값 신뢰도를 평가하는 캘리브레이션(Calibration)의 개념 및 평가 지표를 설명하고, 예측 확률을 실제 관찰 비율에 맞게 사후 교정하는 리캘리브레이션(Recalibration)의 주요 방법론을 제시합니다.

캘리브레이션(Calibration) 개념 및 평가

개념: 모델이 예측한 확률과 모집단에서 실제로 관찰된 이벤트 발생 비율 사이의 일치 정도를 의미
목적: 모델의 예측값이 실제 발생 확률로 해석될 수 있는지 확률값 자체의 신뢰도 평가
시각적 평가: 예측 스코어 대비 실제 비율이 y=x 선을 얼마나 잘 따라가는지 확인하는 캘리브레이션 커브(Calibration Curve) 및 릴라이어빌리티 다이어그램(Reliability Diagram) 활용
수치적 평가: 오차 절댓값의 평균인 ICI, 이상치 영향을 줄인 중앙값 E50, 최악의 케이스를 확인하는 90분위수 E90 지표 활용

리캘리브레이션(Recalibration) 개념 및 기본 조건

리캘리브레이션 주요 방법론 시그모이드 피팅(Sigmoid Fitting): 모델의 예측 점수를 시그모이드 함수에 피팅하여 0과 1 사이의 곡선 형태 확률로 변환하는 방법

아이소토닉 회귀(Isotonic Regression): PAB(PAV) 알고리즘을 활용해 단조성을 위반하는 인접 샘플들을 평균화하며, 계단 형태의 단조 증가 함수로 맵핑하는 비모수적 방법

랜덤 포레스트(Random Forest) 적용 리캘리브레이션

엘칸(Elkan) 방법론: 두 모집단 간 모든 공변량 분포가 동일하다는 전제하에, 전체 사건 발생 비율의 차이만을 수식에 대입하여 확률 교정
로지스틱 회귀 변환 방법: 공변량 분포가 다를 때 적용하며, 개별 트리의 마지막 리프 노드들을 더미 변수로 변환하고 다중공선성을 제거한 뒤 로지스틱 회귀 모델로 재학습