huggingface 2

Gemma 4 가속하기 : 다중 토큰 예측 drafter로 더 빠른 추론 완벽 가이드

Gemma 4 가속하기 : 다중 토큰 예측 drafter로 더 빠른 추론 완벽 가이드도입LLM 추론 속도가 곧 개발자의 병목이다. 수십억 개의 파라미터를 VRAM에서 컴퓨트 유닛으로 이동하는 데 대부분의 시간을소소모하면서, 프로세서는 단 1개의 토큰을 생성하기 위해서만 엄청난 연산을 수행한다. 특히 소비자 등급 하드웨어에서 이 문제는 더욱 심각하다.구글은 바로 이 문제를 해결하기 위해 Multi-Token Prediction(MTP) drafter를 Gemma 4 모델군에 공식 출시했다. 2026년 5월 5일 공개된 이 기술은 추론 속도를 최대 3배 향상시키면서도 출력 품질이나 논리적 정확성에는 전혀 열화를 일으키지 않는다고 جوجل은 밝혔다.Gemma 4는 출시 첫 주에만 6,000만 건 이상의 다운로..

AI 뉴스 2026.05.07

VibeVoice - 오픈소스 프런티어 음성 AI 완벽 가이드

VibeVoice - 오픈소스 프런티어 음성 AI (커버 이미지)VibeVoice - 오픈소스 프런티어 음성 AI 완벽 가이드마이크로소프트가 음성 AI의 모든 것을 하나로 묶었다. VibeVoice는 음성 인식(ASR), 실시간 음성 합성(TTS), 장문 다화자 합성(TTS)이라는 세 가지 핵심 기술을 모두 오픈소스로 공개한 종합 음성 AI 프레임워크다. GitHub 46k 스타를 기록하며 화제를 모으고 있다.VibeVoice란 무엇인가VibeVoice는 마이크로소프트 리서치가 공개한 오픈소스 프런티어 음성 AI 모델 군(family)이다. 2025년 8월 최초 공개 이후 지속적으로 업데이트되어 현재 세 가지 핵심 모델을 제공한다.핵심 혁신: 7.5 Hz 연속 음성 토크나이저(Acoustic + Sema..

AI 뉴스 2026.04.30