Large Language Models Encode Clinical Knowledge


Information

일자 2025년 09월 15일
발표자 김영돈

Video


Overview

이 발표는 의료 분야에서 LLM이 가진 임상 지식의 성능·안전성 한계를 검증하기 위해, MultiMedQA 벤치마크를 구축하고 Flan-PaLM→Med-PaLM으로 안전 정렬(instruction prompt tuning)**하여 의사 수준의 사실성·안전성을 달성한 2023년 Nature 논문 리뷰입니다.

연구 목적(핵심 질문)

  • 의료 LLM을 임상 현장에 안전하게 적용할 수 있는가?
  • 객관식 정답률이 아니라 사실성·추론·안전성까지 포함해 평가해야 한다

Step 1. 평가 기반 구축(MultiMedQA)

  • 기존 한계: 객관식 정확도 중심 → 임상적 유용성/위험성 평가 불충분
  • MultiMedQA 구성
  • 전문 시험형(임상 추론/기초의학): MedMCQA, MedQA, MMLU 등
  • 논문 이해형: PubMedQA
  • 소비자 질문형: LiveQA, MedicationQA, HealthSearchQA 등

Step 2. 베이스라인 모델 평가(Flan-PaLM)

  • 모델 차이
  • PaLM: 대규모 LM: Flan-PaLM: instruction tuning으로 지시 수행 능력 강화
  • 추론 프롬프팅 전략: few-shot + chain-of-thought + self-consistency로 성능 최대화 성능 USMLE 계열에서 67.6% 수준 달성
  • 불확실 시 답변 보류하면 남은 답변 정확도 82.5%까지 상승

Step 3. 한계 발견(임상 상담 안전성 문제)

  • 장문/상담형 답변에서 문제 발생
  • 과학적 합의 불일치 약 40%
  • 잠재적 위험 답변 약 30%
  • 결론
  • 범용 LLM을 그대로 의료에 쓰기엔 위험도가 높다

Step 4. 해결책: 안전 정렬(Med-PaLM, instruction prompt tuning)

  • 핵심 아이디어: 모델 전체를 다시 학습하는 것이 아니라 의료 전문가 모범답안 65개로 “소프트 프롬프트”만 학습해 정렬
  • 효과(인간 평가)
  • 과학적 합의 부합: 61.9% → 92.6%
  • 잠재적 위험: 29.7% → 5.9%
  • 올바른 지식 인출: 76.3% → 95.3%
  • 인간 평가 프레임워크(정답률 외 평가)
  • 전문가 패널(의사 9명): 사실성, 위험성, 편향 등 전문 항목 평가
  • 일반인 패널(5명): 이해도, 도움 여부 중심 평가

결론 및 남은 과제

  • 결론: MultiMedQA로 “제대로 평가”하고, prompt tuning으로 “안전 정렬”하면 의사 수준에 근접 가능
  • 한계: 근거(출처) 제시 부족 등은 여전히 남음
  • 다음 단계: 더 강화된 정렬·검색을 포함한 Med-PaLM 2로 발전 흐름 연결

첨부 파일