AI 뉴스

DeepSeek-V4 논문 읽기 요약: 100만 토큰 文脈을 열린 가치가 열다

노동1호 2026. 4. 30. 19:03

DeepSeek-V4 논문 읽기 요약: 100만 토큰 文脈을 열린 가치가 열다

2026년 4월 24일, DeepSeek는 드디어 DeepSeek-V4를 공식 공개했다. 1.6조 파라미터의 MoE 모델이 100만 토큰 컨텍스트를 기존 대비 10% 수준의 KV 캐시로 처리한다는 사실은 AI 업계에 새로운 기준점을 세웠다. 이번 글에서는 DeepSeek-V4 기술 보고서의 핵심을 읽고, 개발자 관점에서 반드시 알아야 할 아키텍처 혁신 4가지를 정리한다.

DeepSeek-V4, 왜 지금 중요한가

AI 업계는越来越大 파라미터 수와越来越 긴 컨텍스트 윈도우를 동시에 추구해왔다. 그러나 quadratic attention의 계산 비용 때문에, 100만 토큰급 긴 문맥 처리는 사실상 폐쇄형 최첨단 모델만의 영역이었다. DeepSeek-V4는 이 장벽을 열린 가중치(Open Weights)로 제공한다.

모델총 파라미터활성화 파라미터100만 토큰 FLOPs (대비 V3.2)KV 캐시 (대비 V3.2)
V4-Pro1.6조490억27%10%
V4-Flash2840억130억10%7%
V3.2 (비교)100%100%

V4-Pro는 추론 능력면에서 GPT-5.2와 Gemini-3.0-Pro를 능가하며, 에이전트 평가에서 Claude Sonnet 4.5를 넘어 Opus 4.5에 근접한다. 오픈소스 모델로는 현재 최첨단급 성능이다.

핵심 혁신 1: CSA + HCA 하이브리드 어텐션

긴 컨텍스트 처리의 핵심 병목은 KV 캐시 크기다. V4는 이 문제를 두 가지 어텐션 변형을 레이어별로 교차 배치하는 구조로 해결한다.

Compressed Sparse Attention (CSA)

매 m개 KV 토큰을 학습된 압축 가중치로 하나의 엔트리에 압축한 뒤, Lightning Indexer를 통한 top-k 선택과 슬라이딩 윈도우를 결합한다. 로컬 디테일은 유지하면서 글로벌 컨텍스트를 압축하는 전략이다.

Heavily Compressed Attention (HCA)

CSA보다 훨씬 공격적으로 압축(m′ ≫ m)하며, 압축된 스트림에 대해 밀집(dense) 어텐션을 적용한다.

이 두 방식을 레이어별로 interleaving함으로써 100만 토큰 컨텍스트가 기존 대비 10%의 KV 캐시만으로 동작한다. 추론 시 FLOPs도 V3.2 대비 27% 수준으로大幅 절감된다.

DeepSeek-V4 아키텍처概観

DeepSeek-V4의 CSA/HCA 하이브리드 어텐션 구조 — 매 m 토큰을 압축 엔트리로 변환하여 100만 토큰 처리를 효율화

핵심 혁신 2: Manifold-Constrained Hyper-Connections (mHC)

DeepSeek는 V3에서 도입한 Hyper-Connection을 V4에서进一步 발전시켰다. 핵심은 Birkhoff 다면체에 잔여 매핑 행렬을 투영하는 것이다.

구체적으로, Sinkhorn-Knopp 반복을 통해 행렬을 이중 확률 행렬(doubly stochastic matrix)로 프로젝션하면, 스펙트럼_norm이 1 이하로 제한된다. 이 조건 덕분에 변환이 non-expansive해져, 깊게 쌓았을 때 발생하는 수치적 불안정성이 해결된다.

# mHC의 핵심: Birkhoff 폴리토프 투영으로 스펙트럼norm 제한
# B_l을 Sinkhorn-Knopp 반복으로 Birkhoff polytope에投影
B_l_projected = sinkhorn_knopp(B_l) # spectral_norm(B_l) <= 1

이것은 잔여 연결 설계에 실용적인 기여다. V4-Pro의 1.6조 파라미터를 안정적으로 학습할 수 있었던 기반이 된다.

핵심 혁신 3: Muon 옵티마이저 1.6조 스케일 최초 적용

V4는 Muon 옵티마이저를 1조 이상의 MoE 모델에 처음으로 적용했다. AdamW 계열 대비 빠른 수렴과 향상된 안정성을 보고하고 있다. 自社 개발한 hybrid ZeRO 전략과 결합하여 3만 2천~3천 3백억 토큰의 사전 학습을 달성했다.

핵심 혁신 4: FP4 양자화 인식 학습

추론 양자화를 넘어, FP4 QAT(Quantization-Aware Training)를 학습 단계부터 MoE 전문가 가중치와 indexer QK 경로에 적용했다. 차세대 하드웨어에서 FP4×FP8 GEMM이 기존 대비 최대 1/3高速化될 수 있다.

에이전트 개발자를 위한 의미

DeepSeek-V4는 단순한 성능 향상을 넘어, 에이전트 개발의 경제성을 바꾸었다.

Claude Code, OpenClaw, OpenCode와 즉시 연동

• 100만 토큰 컨텍스트를 API로 저렴하게 사용 가능

• thinking/non-thinking dual mode 지원

• OpenAI ChatCompletions 및 Anthropic API 호환

# OpenAI 호환 API로 간단히 호출
from openai import OpenAI

client = OpenAI(
api_key="your-deepseek-api-key",
base_url="https://api.deepseek.com"
)

response = client.chat.completions.create(
model="deepseek-v4-pro",
messages=[{"role": "user", "content": "이 코드베이스 전체를 분석해줘"}],
max_tokens=16384
)

성능 벤치마크 한눈에 보기

벤치마크V4-ProGPT-5.4Claude Opus 4.5비고
수학/추론1위(오픈)顶尖근접오픈소스 최첨단
코딩(Agentic)1위(오픈)SWE-bench 80.6%
세계 지식1위(오픈)Gemini-3.1-Pro 이후

오픈소스 모델 중推理能力, 코딩, 에이전트タスク 모두 1위를 기록했으며, 폐쇄형 최첨단 모델과는 약 3~6개월 차이다.

개발자를 위한 실용 팁

1. API 호출 simplest 방법

V3에서 V4로의 마이그레이션은 모델 이름만 바꾸면 된다. base_url은 동일하게 유지된다.

# 모델만 교체하면 된다
# 기존: deepseek-chat / deepseek-reasoner
# 신규: deepseek-v4-pro 또는 deepseek-v4-flash

2. Flash 모델 선택 기준

순수推理보다 빠른 응답이 필요한 실시간 대화에는 V4-Flash(284B/13B)가 적합하다. 복잡한 추론Task에는 V4-Pro(1.6T/49B)가 최고 성능을 보인다.

3. 100만 토큰 활용 시나리오

• 전체 코드베이스 분석

• 수십 개 문서 동시 요약

• 긴 대화 이력 기반 컨텍스트 유지

• 복잡한 멀티 에이전트 협업

향후 전망

DeepSeek-V4 기술 보고서는 이를 테스트 타임 스케일링의 기초로 설명한다. 효율적인 초장문 컨텍스트 처리가 가능해짐으로써, 향후 모델은 학습 시점이 아닌 추론 시점에 المزيد의 연산을 투입하는 방향으로 발전할 수 있다. 또한 온라인 학습 같은 새로운 패러다임의 토대가 될 것으로 전망된다.

deepseek-chat과 deepseek-reasoner는 2026년 7월 24일 완전히 중단되므로, 기존 사용자는 조속히 V4로 마이그레이션하는 것이 좋다.


📚 출처

• DeepSeek V4 Preview Release: https://api-docs.deepseek.com/news/news260424

• Hugging Face DeepSeek-V4-Pro Technical Report: https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/discussions/129

• DeepSeek V4 Paper: https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf