Toward expert-level medical question answering with large language models
Information
| 일자 | 2025년 10월 27일 |
|---|---|
| 발표자 | 김영돈 |
Video
Overview
이 발표는 Nature Medicine(2025) Med-PaLM 2가 Med-PaLM 1의 사실성·안전성 한계를 해결하기 위해 기반모델(PaLM2) 업그레이드 + 자기평가(ER) + 문헌검색(COR) + 의사피드백 정렬(DPO) 을 결합해 임상형 장문 답변 품질을 크게 끌어올린 과정을 정리합니다.
Med-PaLM 1 한계
- 베이스: Flan-PaLM + few-shot/CoT/self-consistency + 소프트 프롬프트 튜닝
- 성능: USMLE 67% 통과
- 문제: 장문 사실성 61%, 위험 정보 29% 포함 → 안전성 부족
Med-PaLM 2 핵심 업그레이드
- 베이스 모델: PaLM → PaLM 2(추론·코딩·다국어·효율 개선)
- 정렬: SFT + 의사 선호 기반 DPO
- 추론/생성: ER(앙상블+자기평가 정제) + COR(문헌 검색·인용 기반 생성)
파이프라인(4단계)
- Candidate generation: 다중 답 생성
- Ensemble refinement(ER): 자기평가로 재작성/정제
- Chain-of-retrieval(COR): PubMed/Wikipedia medical 검색 → 근거문장 선별 → 인용 포함 답변
- Selection loop: 9개 축(사실성/추론/안전/편향/포괄성 등) 품질평가로 반복 업데이트
데이터·평가 고도화
- MultiMedQA v2: 기존 + adversarial long 질문 + bedside consultation 20문항
- 지표: 단일 정확도 → 의사 참여 9축 품질평가(블라인드)
성능 변화(요약)
- 객관식(MedQA): 67.2% → 85.4%
- 위험 낮은 비율: 79.4% → 90.6%
- 장문 사실성: 68% → 83%
- 의사 선호: 9축 중 3축 우세 → 8축 우세
- bedside(전문의 비교): 일반의 대비 65% 선호, 전문의 대비는 모델 40% vs 전문의 60%
한계 및 다음 단계
- 한계: 텍스트 QA 중심, 영어권 편향, 실사용 책임/가이드라인 부족
- 방향: Med-PaLM M(멀티모달 통합) + 근거·경로 설명 강화 + 임상 워크플로(CDS) 연동