ChatGPT가 대중화한 이후, LLM(대형 언어 모델)의 가장 큰 병목은 단연 추론 속도였습니다. 수십억 개의 파라미터를 가진 모델이 응답을 생성하려면 수 초에서 수십 초가 걸렸죠. 하지만 Groq이라는 스타트업이 이 문제를 근본적으로 해결했습니다. Google의 TPU 설계자였던 Jonathan Ross가 설립한 Groq은 LPU(Language Processing Unit)라는 전혀 새로운 칩 아키텍처를 통해 토큰 생성 속도를 기존 GPU 대비 수십 배 이상 끌어올렸습니다.LPU란 무엇인가?LPU(Language Processing Unit)은 오직 순차적 언어 모델 추론(sequential language model inference)에만 특화된 반도체입니다. NVIDIA GPU가 다목적 연산(그..