(Part 4) A Survey of Large Language Models


Information

일자 2026년 05월 25일
발표자 류가연

Video


Overview

이 발표는 “A survey of Large Language Models”의 4부로, 대형 언어 모델(LLM)의 핵심 응용 분야와 스펙시픽 도메인 적용 현황을 짚어보고, 롱 컨텍스트 모델링, 자율 에이전트, 모델 압축, 검색 증강 생성(RAG), 할루시네이션 완화, 그리고 롱 COT 기반의 복잡한 추론 기술 등 최신 고급 토픽과 향후 연구 방향을 종합적으로 제시합니다.

LLM 응용 분야 및 도메인 적용

  • 문장 분류, 요약, 번역, 정보 추출을 수행하는 전통적인 NLP 테스크 및 사용자 의도 기반의 정보 검색(IR) 확장
  • 자연어로 추천 사유를 설명 가능한 추천 시스템과 이미지/영상을 동시 처리하는 멀티모달 LLM 및 외부 지식 그래프(KG) 연동
  • 타 모델의 결과를 검토하는 평가 자동화 도구(LLM-as-a-Judge) 역할 수행
  • 의료(전문가 수준 진단 보조), 교육(맞춤형 학습), 법률(문서 분석), 금융(이상 탐지), 과학 연구 등 다방면의 전문가 판단 보조 도구로 확장
  • 환각 현상, 개인 정보 보호, 저작권, 데이터 편향 및 오용 가능성에 따른 전문가의 신중한 검증 프로세스 필수

롱 컨텍스트 모델링 (Long-Context Modeling)

  • 위치 정보를 조정하여 학습 기준 이상의 입력 길이를 처리하는 포지션 인베딩 스케일링(인터폴레이션, 베이스 수정 등) 기법 활용
  • 긴 문서를 세그먼트로 나누거나 초기/최근 토큰 위주로 유지 및 핵심 토큰만 선택하는 컨텍스트 윈도우 어댑팅 적용
  • 양보다 질을 우선하여 일관성, 연결성, 구조적 응집성을 갖춘 장문 데이터셋 기반의 효율적인 파인튜닝 프로세스 구축

LLM 기반 자율 에이전트 (LLM-based Agents)

  • 목표 달성을 위해 스스로 계획을 수립하고 행동하는 시스템으로 단기/장기 메모리, 계획(Planning), 실행(Execution)의 3대 요소로 구성
  • 단일 에이전트(작업 반복 수행)와 다중 에이전트(코더, 리뷰어 등 역할 분담 기반의 협력 및 경쟁 토론 방식) 구조로 분류
  • 반복적 추론 및 외부 툴(검색 엔진, 계산기, 코드 실행기 등) 조율 과정에서 발생하는 막대한 연산 비용과 환각 기반의 오작동 한계 존재

컴퓨팅 자원 최적화 및 모델 압축

  • 학습 단계에서의 그레디언트 체크포인팅, 제로(ZeRO) 파라미터 분할, 오프로딩, 플래시 어텐션 기반의 GPU 메모리 최적화
  • 프리필(Calculations) 및 디코딩(KV 캐시 병목) 단계 최적화를 위한 페이지 어텐션 및 스펙큘레이티브 디코딩 도입
  • 모델 내부의 숫자 표현 비트를 줄이는 양자화(훈련 후 양자화, PTQ) 및 교사-학생 가중치 전송을 통한 지식 증류(Distillation)
  • 가중치 뉴런이나 레이어를 제거하여 가볍고 빠른 서비스 환경을 구축하는 모델 가지치기(Pruning) 기술 활용

검색 증강 생성 (RAG) 및 할루시네이션 완화

  • 질문 입력 시 내부 지식에만 의존하지 않고 외부 벡터 데이터베이스 등에서 관련 지식을 검색하여 프롬프트에 결합하는 프로세스
  • 어휘/의미 기반 검색 고도화, 하위 질문 분할 생성, 검색 문서의 재순위화(Reranking) 및 정제 과정을 통한 프롬프트 최적화
  • 개체 오류, 관계 오류, 구식 정보 생성, 과장 표현 등 사실성과 검증 가능성이 부족한 환각(Hallucination) 현상 정의
  • 학습 데이터 품질 개선, 인간 피드백 기반 정렬(RLHF), RAG 연동 및 사실성 중심의 디코딩 전략 조정을 통한 환각 완화

복잡한 추론 및 롱 COT (Long Chain-of-Thought)

  • 바로 답을 내지 않고 유연한 계획, 경로 탐색, 중간 결과 검토, 자체 수정을 거치는 다층적 깊이의 사고 프로세스
  • 강력한 LLM으로부터의 추론 과정 증류, 탐색 알고리즘(MCTS) 기반 데이터 합성, 다중 에이전트 협업을 통한 데이터셋 구축
  • 단계별 탐색을 모방하는 인스트럭션 튜닝과 수학/코딩 등 정답 검증이 가능한 도메인에서의 강화학습 기반 추론 전략 탐구
  • 답변 속도보다 추론 비용을 더 투입하여 정확도를 극대화하는 테스트 타임 스케일링(Test-Time Scaling) 패러다임 전환

결론 및 향후 연구 과제

  • 대규모 확장 및 스케일링 법칙을 통해 성능을 높였으나, 창발적 능력(Emergent Abilities)의 기초 원리에 대한 이론적 규명 필요
  • 트랜스포머 아키텍처의 연산 비용 및 컨텍스트 한계를 개선할 수 있는 효율적인 차세대 네트워크 구조 탐색
  • 막대한 리소스를 아끼기 위한 체계적인 데이터 정제, 혼합, 지속 학습 및 분산 학습 전략 고도화
  • 프롬프트와 외부 도구의 효율적 결합을 위한 활용 기법 정립 및 실제 서비스 단계에서의 인퍼런스 비용 절감
  • RLHF 고도화와 프라이버시 학습을 통한 안정성 확보 및 인류의 가치관, 사회적 기준에 부합하는 정렬(Alignment) 달성

첨부 파일