A visual-language foundation model for computational pathology

A visual-language foundation model for computational pathology

2026-04-20 | Views:

Information

일자	2026년 04월 20일
발표자	김민소

Video

Overview

이 발표는 병리 이미지와 텍스트를 함께 학습한 비전-랭귀지 파운데이션 모델인 CONCH를 통해 기존의 이미지 중심 테스크 특정 모델의 한계를 극복하고, 제로샷 기반의 다양한 병리 과제(분류, 검색, 분할, 캡셔닝)에서 우수한 일반화 성능을 달성한 프레임워크를 제시합니다.

기존 병리 AI 연구의 한계

테스크 스페시픽 구조: 문제마다 별도 모델과 대규모 라벨링이 필요하여 희귀 질환 등에서 확장성이 떨어짐
이미지 중심 접근: 실제 진단에 중요한 텍스트 정보(리포트, 교과서 설명 등)를 충분히 활용하지 못함
데이터 부족: 대규모 이미지-캡션 데이터의 부재로 인해 랭귀지 사전 학습이 매우 제한적임
평가 범위 제약: ROI 분류에 치중되어 WSI 검색, 분할 등 실제 임상 과제에서의 일반화 검증이 부족함

CONCH 핵심 설계

대규모 데이터 구축: 논문 및 교육 자료를 자동 파이프라인으로 정제하여 117만 개 규모의 병리 이미지-텍스트 페어 확보
유니모달 사전 학습: 시각-언어 통합 전 이미지 인코더(ViT 기반)와 텍스트 인코더(GPT 스타일)를 우선적으로 독립 학습
멀티모달 통합 구조: CoCa 아키텍처를 기반으로 이미지 인코더, 텍스트 인코더, 멀티모달 디코더로 구성
복합 학습 목표: 두 모달리티를 공통 공간에 정렬하는 대조 학습(Contrastive)과 이미지 기반 캡션을 생성하는 학습(Captioning)을 동시 수행

다운스트림 성능 (요약)

제로샷 분류(Zero-Shot Classification): 추가 파인튜닝 없이 텍스트 프롬프트만으로 새로운 조직 및 질환을 분류하며 기존 모델 압도
교차 모델 검색(Cross-modal Retrieval): 이미지와 텍스트를 동일 의미 공간에 두어 텍스트-이미지 상호 검색 정확도 대폭 향상
제로샷 세그멘테이션(Zero-Shot Segmentation): 픽셀 단위 라벨 없이 타일 레벨 분류 능력을 활용해 관심 병변 영역을 성공적으로 분할
이미지 캡셔닝(Image Captioning): 파인튜닝을 거쳐 단순 진단을 넘어 형태학적 특징을 구체적으로 설명하는 텍스트 생성

한계 및 향후 과제

데이터 규모 제약: 117만 페어는 병리 분야에선 거대하나 일반 도메인의 초대형 파운데이션 모델에 비해서는 여전히 제한적임
데이터 중복 우려: 사전 학습 데이터와 테스트셋 간의 의도치 않은 데이터 중복(Data Leakage) 가능성을 완전히 배제하기 어려움
도메인 강건성 미검증: 기관, 염색 베리에이션, 스캐너 차이 등 도메인 시프트(Domain Shift)에 대한 성능 방어력이 충분히 검증되지 않음
미세 인식 한계: 세포 수준의 정밀한(Fine-grained) 인식 한계가 존재하여 실제 임상 적용을 위한 추가적인 성능 검증 필요

첨부 파일