ChatGPT, Claude, Gemini 등 우리가 매일 사용하는 대규모 언어 모델(LLM)은 전부 자기회귀(Autoregressive, AR) 방식으로 동작합니다. 토큰을 하나씩 순차적으로 생성하죠. 이 방식은 간단하고 품질이 뛰어나지만, 근본적인 병목이 있습니다. 다음 토큰이 생성되기 전까지 기다려야 한다는 것입니다.이 병목을 해결하기 위해 등장한 것이 디퓨전 언어 모델(Diffusion Language Model, DLM)입니다. 이미지 생성에서 대성공을 거둔 디퓨전 모델을 텍스트로 확장한 개념으로, 여러 토큰을 병렬로 생성할 수 있어 이론적으로는 AR 모델보다 훨씬 빠른 처리가 가능합니다. 하지만 현실은 달랐습니다. DLM은 AR 모델에 비해 항상 품질에서 뒤처졌습니다.이 문제를 근본적으로 해결..