Gemma 4 가속하기 : 다중 토큰 예측 drafter로 더 빠른 추론 완벽 가이드도입LLM 추론 속도가 곧 개발자의 병목이다. 수십억 개의 파라미터를 VRAM에서 컴퓨트 유닛으로 이동하는 데 대부분의 시간을소소모하면서, 프로세서는 단 1개의 토큰을 생성하기 위해서만 엄청난 연산을 수행한다. 특히 소비자 등급 하드웨어에서 이 문제는 더욱 심각하다.구글은 바로 이 문제를 해결하기 위해 Multi-Token Prediction(MTP) drafter를 Gemma 4 모델군에 공식 출시했다. 2026년 5월 5일 공개된 이 기술은 추론 속도를 최대 3배 향상시키면서도 출력 품질이나 논리적 정확성에는 전혀 열화를 일으키지 않는다고 جوجل은 밝혔다.Gemma 4는 출시 첫 주에만 6,000만 건 이상의 다운로..