Moe 4

DeepSeek V4 – 프런티어에 거의 근접했고 가격은 훨씬 저렴

DeepSeek V4 — 프런티어에 근접한 성능, 훨씬 저렴한 가격DeepSeek V4 – 프런티어에 거의 근접했고 가격은 훨씬 저렴DeepSeek가 2026년 4월, 기다려온 V4 시리즈의 첫 모델 DeepSeek-V4-Pro와 DeepSeek-V4-Flash 프리뷰 버전을 공개했다. 100만 토큰 컨텍스트를 지원하는 Mixture of Experts( MoE ) 모델이며, MIT 라이선스로 제공된다.DeepSeek V4, 어떤 모델인가DeepSeek-V4-Pro는 총 1.6T 파라미터와 활성 49B 파라미터를 갖춘 모델이다. Hugging Face 기준 크기는 약 865GB에 달한다. 기존 DeepSeek V3.2(685B 파라미터), Kimi K2.6(1.1T), GLM-5.1(754B)보다 크기 ..

AI 뉴스 2026.05.03

DeepSeek-V4 논문 읽기 요약: 100만 토큰 文脈을 열린 가치가 열다

DeepSeek-V4 논문 읽기 요약: 100만 토큰 文脈을 열린 가치가 열다2026년 4월 24일, DeepSeek는 드디어 DeepSeek-V4를 공식 공개했다. 1.6조 파라미터의 MoE 모델이 100만 토큰 컨텍스트를 기존 대비 10% 수준의 KV 캐시로 처리한다는 사실은 AI 업계에 새로운 기준점을 세웠다. 이번 글에서는 DeepSeek-V4 기술 보고서의 핵심을 읽고, 개발자 관점에서 반드시 알아야 할 아키텍처 혁신 4가지를 정리한다.DeepSeek-V4, 왜 지금 중요한가AI 업계는越来越大 파라미터 수와越来越 긴 컨텍스트 윈도우를 동시에 추구해왔다. 그러나 quadratic attention의 계산 비용 때문에, 100만 토큰급 긴 문맥 처리는 사실상 폐쇄형 최첨단 모델만의 영역이었다. De..

AI 뉴스 2026.04.30

MiMo-V2.5 — Xiaomi의 오픈소스 옴니모델 AI 모델 완벽 가이드

MiMo-V2.5 — Xiaomi의 오픈소스 옴니모델 AI 모델 완벽 가이드 Xiaomi가 최근 MiMo-V2.5와 MiMo-V2.5-Pro 두 개의 오픈소스 AI 모델을 공개했다. 텍스트, 이미지, 오디오, 비디오를 모두 이해하는 네이티브 옴니모달(Native Omnimodal) 아키텍처를 갖추며, MIT 라이선스로 상업적 사용이 가능하다. 특히 에이전틱(Agentic) 작업에서 기존 폐쇄형 프론티어 모델 대비 40~60% 적은 토큰으로同等 성능을 달성해 업계의 주목받고 있다.MiMo-V2.5란?MiMo-V2.5는 샤오미(Xiaomi)가 2026년 4월 공식 발표한 오픈소스 대형 언어 모델이다. 기존 MiMo-V2-Pro의 successor로,了两个 버전으로 제공된다:MiMo-V2.5: 총 3,100억..

AI 뉴스 2026.04.30

DeepSeek-V4 논문 읽기: 백만 토큰 컨텍스트를 저렴하게

DeepSeek-V4 논문 읽기: 백만 토큰 컨텍스트를 저렴하게2026년 4월 23일, DeepSeek은 待了很久의 새 프론티어 모델 DeepSeek-V4를 공개했다. 이번 논문은 단순히 "긴 문맥을 지원한다"는 선언가에 그치지 않는다. 백만 토큰 문맥을 실제 서비스에서 운용 가능한 비용 구조로 구현한 구조적 혁신에 초점을 맞춘다.DeepSeek-V4, 두 가지 버전DeepSeek-V4는 두 가지 구성으로 출시된다.DeepSeek-V4-Pro: 전체 1.6T 파라미터, 토큰당 49B 활성화DeepSeek-V4-Flash: 전체 284B 파라미터, 토큰당 13B 활성화둘 다 1M 토큰 컨텍스트를 지원하지만, 핵심 차이는 비용 효율성이다. 논문이 주장하는 핵심 수치:1M 토큰 환경에서 V4-Pro는 V3.2..

AI 뉴스 2026.04.29