AI 뉴스

antirez/ds4 — Metal용 DeepSeek V4 Flash 로컬 추론 엔진 완벽 가이드

노동1호 2026. 5. 10. 02:04

DeepSeek V4 Flash를 위한 네이티브 Metal 추론 엔진 — ds4

antirez/ds4 — Metal용 DeepSeek V4 Flash 로컬 추론 엔진 완벽 가이드

Salvatore Sanfilippo(antirez) — Redis의 창립자로 잘 알려진 개발자가 2026년 5월 6일, 자신만의 로컬 AI 추론 엔진을공개발표했다. 프로젝트 이름은 ds4(DeepSeek 4 Flash)이며, Apple Silicon을 위한 Metal 기반의 네이티브 추론 엔진이다.공개발표 후 단 이틀 만에 GitHub 스타 577개를 돌파했고, Hacker News 메인 페이지에 올라와 279포인트, 84개의 댓글을 받았다.

로컬 AI 추론 분야에서 llama.cpp와 GGML이 장악하고 있는 지금, 왜 특정 모델만을 위한 독자적인 엔진을 만들었을까? 그 이유는 DeepSeek V4 Flash가 가진 독특한 기술적 특성 때문이다.

DeepSeek V4 Flash, 왜 독자 엔진이 필요할까

DeepSeek V4 Flash는 284B 매개변수를 가진 Mixture-of-Experts(MoE) 아키텍처를 채택하고 있다. 모든 매개변수가 활성화스루 것이 아니라, 입력마다 일부 전문가만 호출하기 때문에 실제 연산량이 훨씬 적다. 이 덕분에 작은 고성능 밀집(dense) 모델보다 더 빠르게 동작하면서도 더 높은 품질의 결과를낸다.

특히 생각하는 모드(thinking mode)에서 강렬한 차별화를 보인다. max thinking을 비활성화하면, 이 모델은 다른 모델 대비 생각의 길이가 1/5 수준으로대폭 단축된다. 게다가 문제의 복잡도에 비례해서 생각의 길이가 자동 조절되기 때문에, 다른 모델들이 사실상 사용 불가능한 조건에서도 DeepSeek V4 Flash는 생각 기능을 유용하게 활용할 수 있다.

100만 토큰 컨텍스트 윈도우도 핵심 특성이다. 이렇게 큰 컨텍스트를 활용하면, 지식의 끝자락에서 샘플링할 때 훨씬 풍부한 정보를 얻을 수 있다. 예를 들어 이탈리아 정치나 문화에 관한 질문에서 284B 매개변수의 강점이 뚜렷이 드러난다. 현재 가장 강력한 소형 모델들과 비교해도 "거의 프론티어 급"의 품질을 보여준다는 것이 antirez의 평가다.

ds4의 혁신적 설계 철학

ds4는 범용 GGUF 실행기가 아니다. 특정 모델만을 위한 네이티브 Metal 그래프 실행기로, 다음과 같은 고유한 설계를 채택하고 있다.

KV 캐시를 디스크의 일급 시민으로 취급한다. 현대 MacBook의 빠른 SSD를 활용하면, KV 캐시가 RAM에만 의존하는 기존 접근법의 한계를 넘어설 수 있다. DeepSeek V4 Flash의 압축된 KV 캐시 특성과 결합되어, 128GB RAM을 탑재한 MacBook에서도 효율적인 장기 컨텍스트 추론이 가능하다.

ds4의량화 전략도 주목할 만하다. 2-bit량화을 적용하지만, 이는 단순한 것이 아니다. 라우팅되는 MoE 전문가들은 up/gate를 IQ2_XXS로, down을 Q2_K로량화한다. 이는 전체 모델 공간의 대부분을 차지하지만, 공유 전문가, projection, 라우팅은 품질 보증을 위해 완전 정밀도로 남겨둔다.

또한 GPT-5.5의 적극적인 협업으로 개발되었다는 점도 의외성을 부여한다. antirez는 자신이 GPT-5.5의 도움으로 코드를 작성했으며 인간이 아이디어, 테스트, 디버깅을 주도했다고 공개적으로 밝히고 있다. "AI로 작성된 코드에 불쾌하다면, 이 소프트웨어는 당신을 위한 것이 아니다"라는 단호한 입장도 함께 제시했다.

성능 벤치마크

ds4는 q2량화 모델 기준 Metal 환경에서 다음과 같은 성능을 보여준다.

| 기기 | Quant | 프리필(짧은 프롬프트) | 생성 | 프리필(11,709토큰) | 생성 |

|------|-------|---------------------|------|-------------------|------|

| MacBook Pro M3 Max 128GB | q2 | 58.52 t/s | 26.68 t/s | 250.11 t/s | 21.47 t/s |

| Mac Studio M3 Ultra 512GB | q2 | 84.43 t/s | 36.86 t/s | 468.03 t/s | 27.39 t/s |

테스트 조건: 컨텍스트 32,768, --nothink, 그리디 디코딩, 256 토큰 생성

M3 Ultra에서는 짧은 프롬프트 프리필 속도가 초당 468 토큰에 달한다. 일반적인 코딩 작업에서 충분한 생성 속도를 제공하면서, 대규모 컨텍스트 처리 능력까지 갖추고 있다.

설치 및 사용법

ds4는 현재 Metal 전용으로만 동작한다. CUDA 지원은 미래 계획에 포함되어 있지만, CPU 경로는 macOS 버그로 인해 완전히 비활성화되어 있다. 이 버그는 가상 메모리 구현에 영향을 미쳐 커널 크래시를 유발하기 때문에, 매번 컴퓨터를 재시작해야 하는 상황은 개발자에게 부담이 되었다고한다.

`bash

# 모델 다운로드 (128GB RAM 이상)

./download_model.sh q2

# 빌드

make

# 실행 (CLI)

./ds4

# 서버 모드 (HTTP API)

./ds4-server

모델은 antirez가 직접 운영하는 Hugging Face 저장소(https://huggingface.co/antirez/deepseek-v4-gguf)에서 다운로드한다. 256GB 이상의 RAM을 갖춘 기기라면 q4량화 모델도 선택할 수 있다.

## 한 가지 주목할 점

ds4의 개발 철학은 "하나의 모델에 모든 것을 쏟는다"는 것이다. 이는 빠르게 변화하는 AI 모델 시장에서 매번 새로운 모델을추추상하는 대신, 하나의 모델을 끝까지 파고드는 집중 전략을 의미한다. Loganical 검증(공식 구현과 logits 비교), 장기 컨텍스트 테스트, 에이전트 통합 테스트까지 포함되어 있어 단순한연시/demo 수준을 넘어선다.

또한 llama.cpp와 GGML의 существованie에 대한 감사의 표시도 빼놓을 수 없다. ds4.c는 GGML에 링크되지 않지만, Georgi Gerganov의 프로젝트가 열어준 길 위에서 탄생했으며,GGUF 양자화 레이아웃, CPU 양자화/다트 로직, 일부 Metal 커널을 소스 레벨에서 차용하거나 적응시켰다.

앞으로의 전망

antirez는 DeepSeek이 향후 더 나은 v4 Flash 버전을 출시할 것으로 기대한다. 이러한 상황에서 특정 모델에 집중하는 전략은 지속 가능한 발전의 기반이 된다. 현재는 알파 품질의 코드이지만, 로컬 AI 추론을 "단순히 실행 가능한 것"이 아닌 "끝까지 완성도 있게 완성된 경험"으로 만들고자 하는 포부가 담겨 있다.

ds4는 특정 모델을 위한 특화된 엔진을 구축함으로써, 범용 프레임워크가 제공하지 못하는 최적화와 검증 수준을 달성하고 있다. Apple Silicon 사용자로서 고성능 로컬 AI 추론 환경을 구축하고자 한다면, ds4는 반드시 주목해야 할 프로젝트다.

핵심 정리

- ds4는 Redis 창립자 antirez가 개발한 Apple Silicon Metal 전용 DeepSeek V4 Flash 추론 엔진

- 2026년 5월 6일 출시, 이틀 만에 GitHub 스타 577개 돌파

- 128GB RAM MacBook에서 q2량화로 실행 가능, 256GB 이상에서 q4 지원

- M3 Ultra 기준 짧은 프롬프트 프리필 468 토큰/초

- 생각 모드에서 생각의 길이가 다른 모델 대비 1/5 수준으로대폭 단축

- 100만 토큰 컨텍스트 및 온디스크 KV 캐시 지원

- llama.cpp/GGML 기반이지만 별도 런타임에 링크되지 않는 네이티브 구현

- GPT-5.5 협업으로 개발되었으며, AI 개발 투명성을 공개적으로 선언

tags: AI, 로컬AI, DeepSeek, Metal, AppleSilicon, ds4, 추론엔진, MacBook, M3Ultra, GGUF, 양자화

📚 출처

• https://news.hada.io/topic?id=29299

'AI 뉴스' 카테고리의 다른 글

AI 시대, 0→1 서비스에서 오픈보다 운영이 더 중요한 이유 완벽 가이드 (0)	2026.05.10
Claude 연구원은 HTML이 Markdown보다 더 쓰기 좋다고 말했습니다. — 개발자가 알아야 할 핵심 정리 (0)	2026.05.10
Cloudflare, 인력 약 20% 감축 발표 — AI가 조직을 바꾸는 방식을 직시하다 (0)	2026.05.10
Natural Language Autoencoders: Claude의 생각을 텍스트로 바꾸기 (0)	2026.05.10
Camofox Browser - AI 에이전트를 위한 스텔스 헤드리스 브라우저 완벽 가이드 (0)	2026.05.09

현재글antirez/ds4 — Metal용 DeepSeek V4 Flash 로컬 추론 엔진 완벽 가이드

ICBM의 Dev 블로그

devops, AI 코딩, gemini, Cursor, Git, 보안, ChatGPT, llm, AI에이전트, OpenAI, Ai, 자동화, claude code, 개발도구, 인공지능, Claude, AI 에이전트, Anthropic, 오픈소스, 에이전트,

Today :
Yesterday :

ICBM의 Dev 블로그