
LLM 아키텍처의 최근 동향: KV 공유, mHC, 그리고 압축 어텐션 완벽 가이드
추론(reasoning) 모델과 에이전트 워크플로가 더 많은 토큰을 더 오래 유지하면서, KV 캐시 크기 · 메모리 트래픽 · 어텐션 비용이 주요 제약으로 부상했습니다. 2026년 4월부터 5월 사이에 공개된 주요 오픈 웨이트 모델들은 이 문제를 해결하기 위해 각자의 아키텍처 트릭을 도입했습니다. 이 글에서는 Gemma 4, Laguna XS.2, ZAYA1-8B, DeepSeek V4 네 모델의 핵심 기술을 자세히 살펴봅니다.
서론: 왜 장문 컨텍스트 효율성이 중요한가
LLM을 실제 제품에 배포할 때 가장 큰 병목 중 하나는 긴 컨텍스트를 처리하는 비용입니다. 모델이 입력 시퀀스 전체를Attention으로 검토해야 하므로, 시퀀스가 길어질수록 메모리와 연산량이 급격히 증가합니다. 특히 수만에서 수백만 토큰규모적 컨텍스트를 다루는 추론 모델에서는 이 문제가 더욱 심각합니다.
오늘년 공개된 오픈 웨이트 모델들은 파라미터 수를 늘리지 않으면서 장문 컨텍스트 추론 비용을 낮추는 데 집중하고 있습니다. 방법론은 각 모델마다 다르지만, 공통 목표는 명확합니다: KV 캐시 크기 축소, 메모리 대역폭 절약, 어텐션 FLOPs 최적화.
1. Gemma 4: 계층 간 KV 공유와 PLE
Google이 2026년 4월 초에 공개한 Gemma 4 제품군은 세 가지 카테고리로 구성됩니다.
• Gemma 4 E2B/E4B: 모바일 · 임베디드 디바이스용 소형 모델
• Gemma 4 26B MoE: 효율적 로컬 추론에 최적화된 MoE 모델
• Gemma 4 31B dense: 최고 품질과 포스트 트레이닝 편의성을 위한 dense 모델
Cross-Layer Attention: KV 캐시 축소의 핵심
Gemma 4의 가장 큰 혁신은 계층 간 KV 공유(cross-layer attention)입니다. 기존 트랜스포머에서는 모든 레이어가 자체 K/V 프로젝션을 계산하지만, Gemma 4는 후반부 레이어가 이전 레이어의 KV 텐서를 재사용합니다.
구체적인 동작 방식은 다음과 같습니다:
• 슬라이딩 윈도우 레이어: 이전 슬라이딩 윈도우 레이어와 KV를 공유
• Full-Attention 레이어: 이전 Full-Attention 레이어와 KV를 공유
• 쿼리 프로젝션: 각 레이어가 자체 계산하므로 어텐션 패턴은 레이어마다 유지
절감 효과는 상당합니다. Gemma 4 E2B는 35개 트랜스포머 레이어 중 처음 15개만 자체 KV를 계산하고, 마지막 20개는 재사용합니다. E4B는 42개 레이어 중 24개만 계산하고 18개를 재사용합니다.
이론적으로 KV 캐시 크기가 약 절반으로 줄어들며, 128K 장문 컨텍스트 기준 E2B는 2.7GB, E4B는 약 6GB의 메모리를 절감합니다. 다만 KV 공유는 일종의 근사이므로 모델 용량이 다소 감소할 수 있다는 한계가 있습니다. Cross-Layer Attention 논문(Brandon et al., NeurIPS 2024)에 따르면 테스트된 소형 모델에서는 영향이 최소 수준이라고 합니다.
Per-Layer Embeddings: 파라미터 효율성 개선
Gemma 4 E2B/E4B 모델명에서 "E"는 Effective를 의미합니다. PLE는 KV 공유와 별개의 효율성 설계로, 파라미터 효율성에 초점을 맞춥니다.
E2B: 2.3B effective parameters(임베딩 포함 시 5.1B)
E4B: 4.5B effective parameters(임베딩 포함 시 8B)
PLE의 핵심 아이디어는 이렇습니다. 비싼 트랜스포머 블록 연산은 작은 effective 사이즈에 가깝게 유지하고, 추가 용량은 per-layer embedding 테이블에 저장합니다. 룩업 기반이므로 어텐션이나 FFN 가중치를 추가하는 것보다 훨씬 저렴합니다. 쉽게 말해, 메인 연산부의 용량을 희생하지 않으면서도 추가 capacity를 확보하는 구조입니다.
2. Laguna XS.2: 레이어별 어텐션 예산 차등화
Laguna는 코딩 응용 LLM에 집중하는 유럽 기반 회사 Poolside의 첫 오픈 웨이트 모델입니다.
기본 구성
총 40개 레이어 중 30개는 슬라이딩 윈도우 어텐션, 10개는 Global/Full Attention으로 구성됩니다. 슬라이딩 윈도우 레이어의 윈도우 크기는 512 토큰이며, 슬라이딩 윈도우와 Global 혼합 패턴은 Gemma 4 등에서도 사용되는 전형적인 방식입니다.
레이어별 쿼리 헤드 수 차등화
Laguna XS.2의 새로운 점은 레이어별로 쿼리 헤드 수를 다르게 할당한다는 것입니다.
Hugging Face config.json의 num_attention_heads_per_layer 설정을 통해 레이어마다 다른 쿼리 헤드 수를 지정할 수 있으며, KV 캐시 모양은 호환을 유지합니다. 구체적인 할당은 다음과 같습니다:
• 슬라이딩 윈도우 레이어: KV 헤드당 8개 쿼리 헤드
• Full Attention 레이어: KV 헤드당 6개 쿼리 헤드
• KV 헤드: 8개로 고정
모든 레이어에 동일한 어텐션 예산을 부여하는 대신, 유용한 곳에 어텐션 용량을 집중하려는 의도입니다. Full-Attention 레이어는 전체 컨텍스트를 보기 때문에 비용이 비싸므로, 쿼리 헤드를 더 적게 할당하는 것이 합리적입니다.
레이어별 용량 차등화 아이디어 자체는 Apple의 2024년 OpenELM까지 거슬러 올라갑니다. Laguna XS.2는 프로덕션급 오픈 모델 중 가장 두드러진 최근 사례입니다. 또한 Laguna는 per-head attention-output gating도 적용하는데, 이는 Qwen3-Next 등에서 유사한 접근을 확인할 수 있습니다.
3. ZAYA1-8B: 압축 잠재 공간에서의 어텐션
Zyphra가 개발한 ZAYA1-8B는 NVIDIA GPU나 Google TPU가 아닌 AMD GPU에서 학습된 점이 특징적인 모델입니다.
구조적 특징
Config.json상 80개의 교대 레이어 항목이 있으며, CCA/GQA 어텐션과 MoE 피드포워드가 번갈아 등장합니다. 4:1 GQA 레이아웃과 함께 CCA를 사용하며, MoE는 매우 희소한 설정으로 토큰당 라우팅 expert 1개만 활성 상태입니다.
Compressed Convolutional Attention의 핵심
CCA의 핵심은 MLA(Multi-head Latent Attention)와 유사하게 어텐션 블록에 압축된 잠재 표현을 도입하는 것입니다. 다만 차이가 있습니다:
• MLA: 잠재 표현을 주로 KV 캐시 축소용으로 사용하고, 실제 어텐션은 어텐션 헤드 공간으로 다시 프로젝션해서 수행
• CCA: Q, K, V를 모두 압축한 뒤 압축된 잠재 공간에서 직접 어텐션 연산 수행. 결과 어텐션 벡터는 다시 up-projection
이 방식의 장점은 KV 캐시뿐 아니라 prefill · 학습 시 어텐션 FLOPs까지 절감한다는 것입니다.
Convolutional Mixing의 역할
"Convolutional"이라는 이름은 압축된 K, Q 표현에 추가 convolutional mixing이 들어가기 때문입니다. 압축은 Q, K, V를 좁게 만들어 연산과 캐시를 절감하지만, 어텐션 표현력이 떨어질 수 있습니다. Convolution은 압축된 Q, K에 로컬 컨텍스트를 저렴하게 추가하는 수단입니다. V에는 적용하지 않습니다. 이유는 Q, K가 어텐션 스코어를 결정하고, V는 그 스코어로 평균되는 콘텐츠이기 때문입니다.
CCA는 ZAYA1-8B 기술 보고서보다 앞선 별도 논문 "Compressed Convolutional Attention: Efficient Attention in a Compressed Latent Space" (2025년 10월)에서 도입되었습니다. CCA 논문 실험 기준, 동일한 압축 설정에서 MLA보다 우수한 결과를 보고하고 있습니다.
4. DeepSeek V4: mHC와 압축 어텐션의 결합
DeepSeek V4는 올해 가장 큰 화제를 모은 릴리즈이며, DeepSeek V4-Pro는 active parameter 비중 기준으로 가장 희소한 MoE입니다. 이 모델에서는 이전 아키텍처 대비 두 가지 핵심이 새로 등장했습니다:
1. mHC: 더 넓은 잔차 경로
2. CSA/HCA: 시퀀스 길이 압축을 통한 장문 컨텍스트 어텐션 최적화
Manifold-Constrained Hyper-Connections
mHC는 Zhu et al. (2024) "Hyper-connections" 논문을 기반으로 합니다. 일반 HC(High-Connection)의 Residual Mapping은 학습 가능한 행렬인데, 여러 층을 거치며 신호 증폭이나 축소가 예측 불가능하다는 문제가 있었습니다.
mHC는 잔차 매핑을 doubly stochastic matrices 매니폴드에 사영합니다. 모든 항이 비음수이고, 각 행과 열의 합이 1이 됩니다. 이로 인해 잔차 혼합이 스트림 간 안정적 정보 재분배처럼 동작합니다.
27B 모델 실험에서 DeepSeek 팀의 최적화 구현(fusion, recomputation, pipeline scheduling)을 통해 n=4 잔차 스트림 사용 시 학습 시간 오버헤드가 단 6.7%에 그쳤습니다. 더 깊은 모델일수록 중요해지는 스케일링 안정성을 확보할 수 있습니다.
CSA와 HCA: 두 가지 압축 어텐션의 하이브리드
매우 긴 컨텍스트에서 어텐션 스코어 계산뿐 아니라 KV 캐시가 시퀀스 길이에 비례해 커지는 문제를 해결하기 위해, DeepSeek V4는 두 압축 어텐션을 교차 배치합니다:
CSA (Compressed Sparse Attention)
• 약한 압축률(m=4) + DeepSeek Sparse Attention 스타일 top-k 선택
• 디테일을 더 살리되 희소 선택
HCA (Heavily Compressed Attention)
• 강한 압축(m'=128, 128 토큰을 압축 KV 엔트리 1개로)
• 짧아진 캐시 위에서 Dense Attention 수행
• 캐시를 크게 줄여서 가능한 구조
두 방식 모두 최근 비압축 토큰을 위해 128토큰 슬라이딩 윈도우 분기를 유지합니다. CSA가 디테일을 살리되 희소 선택을 하고, HCA가 엔트리를 크게 줄여 Dense Attention을 가능하게 하므로 상호 보완적입니다.
효율성 결과(1M 토큰 컨텍스트, DeepSeek V3.2 대비)는 상당합니다:
• DeepSeek V4-Pro: 단일 토큰 추론 FLOPs 27% 절감, KV 캐시 크기 10% 절감
• DeepSeek V4-Flash: FLOPs 10% 절감, KV 캐시 크기 7% 절감
다만 평가 시 주의할 점이 있습니다. CSA/HCA가 MLA보다 일반적으로 "더 좋다"고 단정하기 어렵습니다. 더 공격적인 장문 컨텍스트 설계이자 더 복잡한 구조이며, 논문에 ablation study가 없습니다. DeepSeek V4-Flash-Base가 다수 벤치마크에서 V3.2-Base를 능가한 것은 더 나은 데이터, Muon 기반 최적화, mHC 등 전체 레시피의 결과입니다.
5. 실무자를 위한 정리: 각 기술의 장단점
각 모델의 아키텍처 최적화를 요약하면 다음과 같습니다.
| 모델 | 핵심 기술 | 주요 장점 | 고려사항 |
|---|---|---|---|
| Gemma 4 | Cross-Layer KV Sharing | KV 캐시 약 50% 절감, 구현이 비교적 단순 | 모델 용량 감소 가능성(근사) |
| Gemma 4 | Per-Layer Embeddings | 메인 연산부 용량 유지, 추가 capacity 저렴 | 소형 모델에 특히 효과적 |
| Laguna XS.2 | Layer-wise Attention Budgeting | 어텐션 용량 최적 배분 | 레이어별 설정 관리 복잡도 증가 |
| ZAYA1-8B | Compressed Convolutional Attention | KV 캐시 + 어텐션 FLOPs 동시 절감 | 압축으로 인한 표현력 감소 가능성 |
| DeepSeek V4 | mHC | 스케일링 안정성 확보, 학습 오버헤드 최소 | 구현 복잡도 높음 |
| DeepSeek V4 | CSA/HCA Hybrid | 1M 토큰에서 FLOPs 27% 절감 | 설계 복잡도, ablation study 부족 |
6. 결론: 트랜스포머는여재 발전 중
올해 새 오픈 웨이트 모델들의 공통 패턴을 정리하면, 총 파라미터 수를 줄이지 않으면서 장문 컨텍스트 추론 비용을 낮추는 것이 핵심 목표입니다.
• Gemma 4는 계층 간 KV 공유로 KV 캐시를 축소하고, PLE로 파라미터 효율을 개선
• Laguna XS.2는 레이어별 어텐션 용량을 차등화
• ZAYA1-8B는 어텐션을 압축 잠재 공간으로 이동
• DeepSeek V4는 제약된 잔차 스트림 혼합과 압축 장문 어텐션 결합
트랜스포머 블록은 여전히 변화 중이지만, 기본 골격은 GPT decoder-only 아키텍처를 유지합니다. 정성적 모델링 성능은 주로 데이터 품질과 양, 그리고 학습 레시피가 견인하고 있습니다. 현재까지는 트랜스포머가 SOTA 아키텍처의 현상태로 유지되며, diffusion 모델 등 대안도 존재합니다.
기본 트랜스포머 블록은 PyTorch 50~100줄로 구현 가능했지만, 최근 어텐션 변형 등으로 코드 복잡도가 약 10배 증가했습니다. 복잡도 증가 자체는 런타임 비용을 줄이므로 부정적인 것만은 아니지만, 개별 컴포넌트와 상호작용에 대한 명확한 이해는 점점 어려워지고 있습니다.
학습 권장 접근: 원조 decoder-style LLM(GPT/GPT-2)에서 출발해 새 컴포넌트를 하나씩 추가해 가며 학습하는 것이 가장 효과적입니다.
함께 보면 좋은 자료
• Sebastian Raschka의 원문: Recent Developments in LLM Architectures
• DeepSeek-V4 논문 읽기 요약: 노정석님의 DeepSeek-V4 논문 정리
--big LLM들의 아키텍처 비교: 각 모델의 설계 철학 비교 분석
📚 출처
'AI 뉴스' 카테고리의 다른 글
| 맥 위의 실시간 다국어 AI 보이스 에이전트 — TalkMode 완벽 가이드 (0) | 2026.05.24 |
|---|---|
| Zero - 에이전트를 위한 프로그래밍 언어 (0) | 2026.05.23 |
| AI를 거부하는 것은 인간의 선택이다 (1) | 2026.05.23 |
| 마이크로소프트, Claude Code 라이선스 회수 시작하다 — 개발자가 알아야 할 핵심 정리 (0) | 2026.05.23 |
| agentmemory - AI 코딩 에이전트용 영구 메모리 시스템 완벽 가이드 (0) | 2026.05.23 |