AI 뉴스

DeepSeek V4 – 프런티어에 거의 근접했고 가격은 훨씬 저렴

노동1호 2026. 5. 3. 21:03

DeepSeek V4 — 프런티어에 근접한 성능, 훨씬 저렴한 가격

DeepSeek V4 – 프런티어에 거의 근접했고 가격은 훨씬 저렴

DeepSeek가 2026년 4월, 기다려온 V4 시리즈의 첫 모델 DeepSeek-V4-ProDeepSeek-V4-Flash 프리뷰 버전을 공개했다. 100만 토큰 컨텍스트를 지원하는 Mixture of Experts( MoE ) 모델이며, MIT 라이선스로 제공된다.

DeepSeek V4, 어떤 모델인가

DeepSeek-V4-Pro는 총 1.6T 파라미터활성 49B 파라미터를 갖춘 모델이다. Hugging Face 기준 크기는 약 865GB에 달한다. 기존 DeepSeek V3.2(685B 파라미터), Kimi K2.6(1.1T), GLM-5.1(754B)보다 크기 때문에, 현재 최대 오픈 가중치(open-weight) 모델로 등극했다.

DeepSeek-V4-Flash는 총 284B 파라미터, 활성 13B 파라미터로 훨씬 가볍다. 약 160GB 크기로, 양자화하면 128GB M5 MacBook Pro에서도 실행 가능할 것으로 기대된다.

두 모델 모두 100만 토큰 컨텍스트를 지원하며, 표준 MIT 라이선스를 채택했다.

가격 — 가장 강력한 차별점

DeepSeek V4의 가장 큰 매력은 가격이다.

모델입력 ($/1M 토큰)출력 ($/1M 토큰)
DeepSeek V4 Flash$0.14$0.28
DeepSeek V4 Pro$1.74$3.48
GPT-5.5$5.00$30.00
Claude Opus 4.7$5.00$25.00
Gemini 3.1 Pro$2.00$12.00

Flash는 소형 모델 중 가장 저렴하고, Pro는 대형 프런티어 모델 중에서도 가장 낮은 가격을 기록했다.

긴 컨텍스트 효율성 — 왜 이렇게싼가

DeepSeek의 새 논문에서 밝힌 핵심 개선점은 긴 컨텍스트 프롬프트 효율이다.

100만 토큰 컨텍스트 기준:

DeepSeek-V4-Pro: 단일 토큰 FLOPs 27%, KV 캐시 크기 10% (V3.2 대비)

DeepSeek-V4-Flash: 단일 토큰 FLOPs 10%, KV 캐시 크기 7% (V3.2 대비)

이 효율성 개선은 HCA(Hierarchical Cross-Attention)mCH(multi-head Cross-Attention Hybrid)라는 새로운 기법을 도입했기 때문이다. 같은 연산 자원으로 3배 이상 더 많은 요청을 서빙할 수 있고, 이전 KV 캐시의 단 30%만 있으면 된다.

성능 — 프런티어에 근접했지만 완전히 앞서지는 않는다

DeepSeek의 자체 벤치마크에 따르면:

• DeepSeek-V4-Pro-Max(추론 토큰 확장 적용)는 표준 벤치마크에서 GPT-5.2와 Gemini-3.0-Pro보다 높은 성능을 기록했다

• 그러나 GPT-5.4, Gemini-3.1-Pro보다는 약간 낮다

• CAISI(NIST) 평가에서도 DeepSeek V4 Pro의 성능은 프런티어 대비 약 8개월 뒤처진 개발 궤적을 보인다

즉, 프런티어와 거의 근접했지만, 최상위 모델에는 여전히 3~6개월 차이가 있다.

개발자 실제 후기

HN 사용자들 사이에서 실제로 사용한 후기가 올라왔다.

> "DeepSeek V4 Pro는 성격 면에서 Claude Opus 4.6처럼 느껴졌고, 비용 면에서는 인상적이었다. 꽤 큰 TypeScript 코드베이스에서 API, DTO, 서비스, 데이터베이스 모델을 계층별로 깊게 분석하게 했는데, 두 프롬프트 모두 총 비용이 $0.09였다. Claude Opus였다면 $9~$13 정도를 쉽게 태웠을 것이다."

다른 사용자도찬동했다:

> "작은 개념 증명에 약 10센트를 냈고, 프롬프트한 대로 정확히 동작했다. 이 달 말 GitHub Copilot을 해지한 뒤의 진짜 대안이다."

단, 주의할 점도 있다. DeepSeek V4 Pro와 Kimi K2.6은 프런티어 모델보다 추론 토큰을 훨씬 많이 사용하는 경향이 있다. 일부 병리적 사례에서는 비용이 프런티어 모델과 비슷해지기도 한다.

로컬 실행 — 128GB MacBook에서

의대리 개발자가 YouTube에서 128GB MacBook에서 DeepSeek V4 Flash를 실행하는 라이브 데모를 공유했다.

또한 Hugging Face의 Unsloth에서 양자화 버전 공개가 준비 중이라,Flash 모델이 로컬에서 얼마나 잘 실행될지 관심이 높다. Pro 모델도 필요한 활성 전문가만 디스크에서 스트리밍하면 같은 머신에서 실행 가능한 가능성이 열린다.

정리

DeepSeek V4는 다음 점에서 주목할 만하다:

가격: 대형 프런티어 모델 중 가장 저렴

효율: 100만 토큰 컨텍스트에서 KV 캐시 10%만 사용

규모: 1.6T 파라미터의 최대 오픈 가중치 모델

오픈 소스: MIT 라이선스, weights 공개

다만 완전한 프런티어 수준에는 아직 3~6개월 뒤처져 있으며,OpenRouter를 통한 속도(TPS 10~30)가 느린 점은 개선이 필요하다. 그래도 비용 효율성오픈 소스 공개라는 두 가지 강점은 분명하다.

개발자 입장에서 Claude Opus나 GPT-5 대안을 찾고 있다면,DeepSeek V4 Pro는 충분히 검토할 만한 후보다.


실용 활용 아이디어

1. 코드 분석:대형 코드베이스에서 API·DTO·서비스 계층 분석에 적합

2. 리팩터링:전체 세션 비용이 $1 미만으로 대규모 리팩터링에 경제적

3. POC 개발:작은 개념 증명에 Flash 버전을 비용 걱정 없이 활용

4. 다국어 작업:V4는 다국어 벤치마크에서 V3.2보다 한 단계 올라섰다


📚 출처

• DeepSeek V4 – 프런티어에 거의 근접했고 가격은 훨씬 저렴: https://news.hada.io/topic?id=29099

• TechCrunch: https://techcrunch.com/2026/04/24/deepseek-previews-new-ai-model-that-closes-the-gap-with-frontier-models/

• Fortune: https://fortune.com/2026/04/24/deepseek-v4-ai-model-price-performance-china-open-source/

• NIST CAISI Evaluation: https://www.nist.gov/news-events/news/2026/05/caisi-evaluation-deepseek-v4-pro

• Hugging Face: https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro

tags: DeepSeek, AI, LLM, 프런티어, MoE, 오픈소스, GPT, Claude, Gemini, 모델, 2026