A survey of Large Language Models


Information

일자 2026년 01월 19일
발표자 류가연

Video


Overview

이 발표는 “A survey of Large Language Models”의 1부로, LLM의 발전사를 SLM→신경망 LM→PLM→LLM 흐름으로 정리한 서베이이며, 스케일링·창발적 능력·GPT 계열 발전·프리트레이닝 데이터 설계 원리를 체계적으로 설명합니다.

언어 모델 발전 흐름

  • SLM(n-gram)은 짧은 문맥만 반영해 장기 의존성과 데이터 다양성에서 한계가 있습니다.
  • 신경망 LM은 임베딩 기반 분산표현으로 일반화 성능을 개선했습니다.
  • PLM은 사전학습→파인튜닝 패러다임을 확립했습니다.
  • LLM은 일정 스케일 이후 창발적 능력이 등장하며 범용 문제 해결사로 확장됩니다.

PLM vs LLM 차이

  • LLM은 ICL·추론 같은 능력이 임계점 이후 비선형적으로 나타납니다.
  • 파인튜닝 중심에서 프롬프트 중심 사용으로 전환됩니다.
  • 대규모 분산학습이 필수라 연구 구조가 엔지니어링 협업 중심으로 바뀝니다.

핵심 기술 배경

  • 트랜스포머 어텐션은 RNN의 순차 처리 한계를 해결하고 긴 문맥을 반영합니다.
  • 스케일링 법칙은 Kaplan(모델 확장 유리)과 Chinchilla(데이터·모델 균형)이 대표적입니다.

창발적 능력 3가지

  • ICL은 예시만으로 새로운 작업을 수행합니다.
  • Instruction tuning은 지시-응답 학습으로 제로샷 일반화를 강화합니다.
  • Chain-of-Thought는 단계적 추론을 유도해 복잡한 문제 성능을 올립니다.

LLM 성공을 만든 5가지 요소

  • 모델·데이터·연산의 스케일 업이 기본 성능을 끌어올립니다.
  • 분산·병렬 학습으로 대규모 학습을 안정화합니다.
  • ICL·Instruction·Reasoning으로 능력을 도출합니다.
  • RLHF로 안전성과 지시 이행을 강화합니다.
  • 외부 도구(검색·계산 등) 활용으로 한계를 보완합니다.

GPT 계열 발전

  • GPT1/2는 트랜스포머 기반을 확립했습니다.
  • GPT3는 ICL을 본격화했습니다.
  • GPT3.5는 RLHF로 대화 안정성을 강화했습니다.
  • GPT4는 멀티모달·복잡 문제 해결을 강화했습니다.

Pre-training 데이터 설계

  • 데이터는 소스→전처리→스케줄링의 3단계로 관리됩니다.
  • 전처리는 저품질 제거, 중복 제거, PII 제거, 서브워드 토크나이징을 포함합니다.
  • 스케줄링은 데이터 혼합 비율과 커리큘럼으로 모델 능력 특성을 결정합니다.

첨부 파일