AI 뉴스

DeepSeek-V4 논문 읽기: 백만 토큰 컨텍스트를 저렴하게

노동1호 2026. 4. 29. 21:02

DeepSeek-V4 논문 읽기: 백만 토큰 컨텍스트를 저렴하게

2026년 4월 23일, DeepSeek은 待了很久의 새 프론티어 모델 DeepSeek-V4를 공개했다. 이번 논문은 단순히 "긴 문맥을 지원한다"는 선언가에 그치지 않는다. 백만 토큰 문맥을 실제 서비스에서 운용 가능한 비용 구조로 구현한 구조적 혁신에 초점을 맞춘다.

DeepSeek-V4, 두 가지 버전

DeepSeek-V4는 두 가지 구성으로 출시된다.

  • DeepSeek-V4-Pro: 전체 1.6T 파라미터, 토큰당 49B 활성화
  • DeepSeek-V4-Flash: 전체 284B 파라미터, 토큰당 13B 활성화

둘 다 1M 토큰 컨텍스트를 지원하지만, 핵심 차이는 비용 효율성이다. 논문이 주장하는 핵심 수치:

  • 1M 토큰 환경에서 V4-Pro는 V3.2 대비 FLOPs 27% 수준으로 감소
  • KV cache는 10% 수준으로 감소
  • V4-Flash는 더 공격적으로 FLOPs 10%, KV cache 7%까지 낮춤

DeepSeek-V4 아키텍처 개요

DeepSeek-V4: 긴 문맥을 비용 효율적으로 처리하는 구조

왜 1M 토큰이 어려운가

긴 문맥은 입력창을 크게 만들면 해결되지 않는다. 언어 모델은 새 토큰을 생성할 때마다 앞서 나온 전체 문맥을 참고해야 한다. 문맥이 백만 토큰에 도달하면:

  1. 앞선 정보를 저장해야 한다 (KV cache)
  2. 저장한 정보를 다시 읽어야 한다 (메모리 대역폭)
  3. 어떤 정보가 중요한지 판단해야 한다 (계산량)

이 과정이 매 생성 토큰마다 반복되므로, 계산량과 KV cache 메모리가 폭발적으로 증가한다.

CSA와 HCA: 두 가지 어텐션의 조합

Compressed Sparse Attention (CSA)

CSA는 긴 문맥을 압축한 뒤 관련性が高い 항목만 골라서 본다. 흐름:

  1. 긴 문맥을 블록 단위로 압축
  2. 인덱서가 현재 토큰과 관련 높은 블록 탐색
  3. 상위 후보만 어텐션에 사용
  4. 최근 토큰은 슬라이딩 윈도우로 별도 보존

Heavily Compressed Attention (HCA)

HCA는 CSA보다 더 강하게 압축하지만, 압축된 항목 전체에 대해 어텐션을 수행한다. 장문 전체를 아주 거친 요약 지도처럼 만들어 전체 흐름을 저렴하게 유지한다.

하이브리드 설계의 효과

CSA는 "관련 높은 장기 기억을 골라 보기", HCA는 "넓은 범위를 저렴한 요약 형태로 보기". 두 방식을 섞어 사용することで 계산량과 메모리 사용량을 동시에 줄인다.

mHC: 안정적인 정보 흐름

DeepSeek-V4는 Manifold-Constrained Hyper-Connections (mHC)를 도입한다. 기존 잔차 연결을 하나의 길이가 아니라 여러 갈래의 정보 통로로 확장한다. 각 층은 이 통로들을 섞어서 다음 층으로 보내되, 섞는 방식이 과도하게 커지지 않도록 제약을 둔다.

이 설계의 효과:

  • 모델 표현력 향상
  • 깊은 MoE 모델의 학습 불안정성 감소

KV Cache 관리: 저장 구조까지 변경

attention 계산만 줄여서는 불충분하다. KV cache 저장 방식도 혁신이 필요하다. DeepSeek-V4는 cache를 세 가지로 분리한다:

  • CSA/HCA용 압축 KV cache
  • Sliding Window Attention용 최근 토큰 cache
  • 아직 압축할 만큼 충분히 쌓이지 않은 tail token 상태

또 주목할 점은 on-disk KV cache다. 공유 prefix가 있는 요청에서 이미 계산한 cache를 디스크에 저장해 재사용한다. 같은 긴 문서에 대해 여러 질문을 할 때, 매번 처음부터 읽지 않아도 된다.

MoE 통신 최적화

DeepSeek-V4는 MoE(Mixture of Experts) 모델이다. 전문가가 여러 장치에 나뉘어 있으면 통신 비용이 발생한다. 이를 줄이기 위해:

  • 전문가 처리 과정을 작은 wave로 쪼갬
  • 한 wave의 통신이 끝나면 바로 계산 시작
  • 동시에 다음 wave의 통신 진행 (통신 지연 숨기기)

특히 RL rollout이나 agent serving처럼 작은 batch가 길게 이어지는 상황에서 강한 speedup을 보인다.

학습 안정성: 라우팅과 Outlier 처리

대규모 MoE 모델은 학습 중 loss spike가 생기기 쉽다. DeepSeek-V4는 두 가지 실용적 기법을 사용한다:

  1. Anticipatory Routing: 현재 step의 feature는 현재 모델로 계산하지만, 라우팅 인덱스는 이전 시점 모델 기준으로 미리 계산
  2. SwiGLU Clamping: SwiGLU 내부 값이 지나치게 커지지 않도록 제한하여 outlier 감소

핵심 성능 지표

BenchmarkDeepSeek-V4-Pro-Max
SimpleQA-Verified57.9
Chinese-SimpleQA84.4
LiveCodeBench93.5
Codeforces rating3206
SWE Verified80.6

1M 컨텍스트: 검색 성능은 유지되는가

장문 모델의 핵심 평가는 "긴 입력을 받을 수 있는가"가 아니라 "긴 입력 속에서 필요한 정보를 찾을 수 있는가"다. 논문은 MRCR과 CorpusQA를 사용해 1M 컨텍스트 성능을 평가했다.

결과: DeepSeek-V4-Pro-Max는 128K까지 매우 안정적인 검색 성능을 보인다. 그 이후에는 하락하지만, 1M에서도 의미 있는 수준을 유지한다.

결론: 1M context는 가능해졌지만, 완벽한 정보 접근 문제는 아직 해결 중.

실용적 활용

DeepSeek-V4는 세 단계의 reasoning effort를 제공한다:

  • Non-think: 빠른 응답이 필요한 경우
  • High: 긴 추론이 필요한 복잡한 문제
  • Max: 최대한의 reasoning budget 사용

특히 agent 환경에서는:

  • 도구 호출이 있는 경우: 여러 turn에 걸친 작업 상태를 더 오래 유지
  • 일반 대화: 이전 reasoning 내용을 더 적극적으로 비워 context 절약

결론

DeepSeek-V4의 핵심 기여는 "1M 토큰을 지원한다"는 것이 아니라 "1M 토큰을 상시 운용 가능한 비용 구조로 지원한다"는 것이다. CSA/HCA 하이브리드 어텐션, mHC 기반 안정적 신호 흐름, 분리된 KV cache 관리, MoE 통신 최적화가 결합된 시스템적 혁신이다.

특히 MIT 라이선스로 공개된 점, Huawei Ascend 등 국내 칩 최적화가 이루어진 점은 주목할 만하다.


📚 출처