ChatGPT, Claude, Gemini 등 우리가 매일 사용하는 대규모 언어 모델(LLM)은 전부 자기회귀(Autoregressive, AR) 방식으로 동작합니다. 토큰을 하나씩 순차적으로 생성하죠. 이 방식은 간단하고 품질이 뛰어나지만, 근본적인 병목이 있습니다. 다음 토큰이 생성되기 전까지 기다려야 한다는 것입니다.
이 병목을 해결하기 위해 등장한 것이 디퓨전 언어 모델(Diffusion Language Model, DLM)입니다. 이미지 생성에서 대성공을 거둔 디퓨전 모델을 텍스트로 확장한 개념으로, 여러 토큰을 병렬로 생성할 수 있어 이론적으로는 AR 모델보다 훨씬 빠른 처리가 가능합니다. 하지만 현실은 달랐습니다. DLM은 AR 모델에 비해 항상 품질에서 뒤처졌습니다.
이 문제를 근본적으로 해결한 논문이 최근 화제를 모으고 있습니다. 바로 I-DLM (Introspective Diffusion Language Model)입니다. Together AI, UIUC, Princeton, Stanford, UT Austin의 연구진이 공동으로 개발했으며, arXiv에 논문(2604.11035)과 코드가 공개되어 있습니다.
왜 기존 DLM은 AR 모델을 이기지 못했나?
I-DLM 연구진은 기존 DLM의 문제 원인을 한 가지 핵심 개념으로 규명했습니다: 내성적 일관성(Introspective Consistency)의 부족입니다.
AR 모델은 토큰을 생성할 때마다 자신이 이미 생성한 앞부분 토큰을 자연스럽게 "재검증"합니다. 인과적 어텐션(causal attention) 구조 덕분에, 모델이 새 토큰을 결정하는 과정에서 이전 토큰들과의 일관성이 자동으로 확인되는 것이죠. 반면 기존 DLM은 노이즈 제거(denoising)에는 능하지만, 자신이 생성한 결과를 스스로 검증하는 메커니즘이 없었습니다.
연구진은 기존 DLM의 세 가지 근본적 병목을 식별했습니다:
- 낮은 내성적 일관성: SDAR의 경우 0.699에 불과했으나, I-DLM은 0.984로 극적 개선
- 비효율적인 연산: 기존 SDAR 방식은 약 7.8배의 오버헤드, I-DLM은 약 2.5배로 개선
- 인프라 불일치: 기존 DLM은 AR 서빙 인프라와 호환되지 않아 별도 시스템 필요
I-DLM의 핵심 혁신: 내성적 보폭 디코딩(ISD)
I-DLM의 핵심 기술은 Introspective Strided Decoding (ISD)입니다. 이 방법은 하나의 포워드 패스에서 새로운 토큰 N개를 생성하면서 동시에 이전 토큰들을 검증합니다.
구체적으로, 모델은 매 스텝에서 두 가지를 동시에 수행합니다. 첫째, 마스크된 위치에서 새 토큰을 예측하여 병렬 생성 속도의 이점을 누립니다. 둘째, 이미 생성된 토큰을 재검토하여 일관성을 유지합니다. p/q 수용 기준(acceptance criterion)을 통해 생성된 토큰의 품질을 보장합니다.
특히 흥미로운 점은 Gated LoRA와 결합하면 AR 모델과 비트 단위(bit-for-bit) 완전 동일한 출력을 보장한다는 것입니다. 이는 손실 없는 가속(lossless acceleration)이 가능함을 의미합니다.
놀라운 벤치마크 성능
I-DLM-8B는 동일 규모의 DLM 중 처음으로 AR 모델과 동등한 품질을 달성했습니다. 특히 파라미터 수가 절반임에도 LLaDA-2.1-mini (16B)를 압도했습니다.
주요 성능 지표를 살펴보면:
- AIME-24 (수학 경시대회): I-DLM-8B 69.6점 vs LLaDA-2.1-mini 43.3점 (+26점 차이)
- LiveCodeBench-v6 (코딩): I-DLM-8B 45.7점 vs LLaDA-2.1-mini 30.4점 (+15점 차이)
- MATH-500: I-DLM-8B 96.8점 (거의 완벽에 가까운 성능)
- GSM8K: I-DLM-8B 95.0점
- GPQA-D: I-DLM-8B 55.6점
- HumanEval: I-DLM-8B 93.3점
이 성능은 기존 DLM 방식(SDAR, LLaDA, Mercury 등)을 모두 능가하며, 특히 수학과 코딩 영역에서 그 격차가 두드러집니다.
처리량(Throughput): 2.9~4.1배 속도 향상
품질뿐 아니라 속도에서도 혁신적인 결과를 보여줍니다. 높은 동시성(C=64) 환경에서 I-DLM은 LLaDA-2.1-mini 대비 2.9~4.1배 높은 처리량을 달성했습니다.
더 중요한 점은 I-DLM이 기존 AR 서빙 인프라와 완전 호환된다는 것입니다. SGLang 같은 기존 AR 모델 서빙 프레임워크에 드롭인(drop-in) 방식으로 통합될 수 있으며, 별도의 커스텀 인프라가 필요하지 않습니다. 이는 실제 프로덕션 환경에서의 도입 장벽을 크게 낮춥니다.
처리량 향상은 동시성 수준에 따라 다르게 나타납니다. 낮은 동시성(메모리 바운드) 환경에서는 포워드 패스당 생성 토큰 수(TPF)가 거의 그대로 속도 향상으로 이어집니다. 높은 동시성(컴퓨트 바운드) 환경에서는 연산 오버헤드의 영향이 커지지만, 그럼에도 유의미한 속도 이점을 유지합니다.
기술적 세부사항
I-DLM의 학습 과정은 크게 두 단계로 구성됩니다. 먼저 사전 학습된 AR 모델을 변환합니다. 인과적 어텐션(causal attention)을 적용하고, 로짓 시프트(logit shift)를 수행하며, 전체 마스킹(all-masked) 목적 함수로 미세 조정합니다.
디코딩 과정에서 ISD는 보폭(stride) 크기와 수용률(acceptance rate)의 트레이드오프를 제공합니다. I-DLM의 실제 수용률은 약 0.90으로, 기존 SDAR의 0.50에 비해 훨씬 높습니다. 이 높은 수용률이 품질과 속도 모두에 기여합니다.
8B와 32B 두 가지 크기의 모델이 공개되었으며, 32B 버전은 더 강력한 성능을 보여줍니다. AIME-25에서 80.0점, MATH-500에서 97.6점, MMLU-Pro에서 79.7점을 기록했습니다.
LLM 서빙의 미래
I-DLM이 의미 있는 이유는 단순히 성능 수치 때문만은 아닙니다. 이 연구는 병렬 토큰 생성이라는 DLM의 이론적 장점을 처음으로 실제 성능 향상으로 연결했습니다.
현재 LLM 서빙의 주요 비용은 디코딩 단계에 집중되어 있습니다. AR 모델은 메모리 대역폭에 병목을 겪으며, GPU 연산 자원을 충분히 활용하지 못하는 경우가 많습니다. DLM이 실제로 작동한다면, 서빙 비용을 획기적으로 줄이면서도 품질을 유지할 수 있게 됩니다.
특히 기존 AR 인프라(SGLang 등)와의 호환성은 실무 적용 관점에서 결정적입니다. 새로운 서빙 시스템을 구축할 필요 없이, 기존 시스템에 I-DLM을 적용하기만 하면 됩니다.
요약
I-DLM은 디퓨전 언어 모델 연구 분야의 중요한 이정표입니다. 내성적 일관성이라는 핵심 문제를 정확히 진단하고, 이를 해결하는 우아한 방법론을 제시했습니다. 동일 규모 AR 모델과 동등한 품질, 기존 DLM 대비 압도적 성능, 기존 인프라와의 호환성까지 갖춘 최초의 DLM이라는 점에서 주목할 만합니다.
코드와 모델은 GitHub(github.com/Introspective-Diffusion/I-DLM)에서 확인할 수 있으며, SGLang을 통한 추론 코드도 함께 제공됩니다. LLM 서빙 비용 최적화에 관심이 있는 개발자라면 꼭 살펴보시기를 추천합니다.
관련 링크:
- 논문: arxiv.org/abs/2604.11035
- 프로젝트 페이지: introspective-diffusion.github.io
- 코드: github.com/Introspective-Diffusion/I-DLM
'AI 뉴스' 카테고리의 다른 글
| Claude Opus 4.7 + Mythos + Design — Anthropic 4월 업데이트 총정리 (1) | 2026.04.18 |
|---|---|
| 2026년 LLM 생태계 완벽 정리 — 멀티모달, 에이전트, 로컬까지 (1) | 2026.04.16 |
| [완벽 가이드] AI 검색 엔진 동향 분석 — Perplexity부터 ChatGPT Search까지 (2) | 2026.04.16 |
| SDXL에서 FLUX.1-schnell으로 갈아탄 이유 — Kaggle T4 GPU 이미지 생성 실전 비교 (1) | 2026.04.15 |
| Groq LPU 아키텍처 완벽 해부 — 초저지연 AI 추론의 비밀 (0) | 2026.04.14 |