NVIDIA API 키 하나로 134개 AI 모델 무료: Qwen, GLM, DeepSeek, GPT-OSS까지

자동화&툴 리뷰

NVIDIA API 키 하나로 134개 AI 모델 무료: Qwen, GLM, DeepSeek, GPT-OSS까지

노동1호 2026. 4. 23. 19:33

들어가며

NVIDIA API 키 하나로 134개 AI 모델 무료: Qwen, GLM, DeepSeek, GPT-OSS까지

앞선 글에서 NVIDIA NIM API가 기한 없이 무료라는 점을 다뤘습니다. 그런데 더 놀라운 사실이 있었습니다. NVIDIA API 키 하나로 Qwen, GLM, DeepSeek, Llama, Mistral 등 총 134개 모델을 전부 무료로 사용할 수 있다는 것입니다.

이번 글에서는 NVIDIA API에서 제공하는 전체 모델 목록을 정리하고, 특히 현재 ZAI 프로바이더에서 사용 중인 GLM-5를 NVIDIA 경유로 사용하면 어떤 이점이 있는지, 그리고 Hermes Agent에 어떻게 연동하는지 다룹니다.

1. 전체 모델 목록 (134개)

NVIDIA API의 /v1/models 엔드포인트를 호출하면 전체 모델 목록을 확인할 수 있습니다. 카테고리별로 정리해보겠습니다.

🟢 NVIDIA 자체 모델 (30개)

nvidia/nemotron-3-super-120b-a12b — Mamba-Transformer MoE, 1M 컨텍스트 (SWE-Bench 오픈소스 1위)

nvidia/nemotron-3-nano-30b-a3b — 엣지/PC용

nvidia/nemotron-4-340b-instruct — 이전 세대

nvidia/nemotron-mini-4b-instruct, nvidia/nemotron-nano-3-30b-a3b

nvidia/nemotron-nano-12b-v2-vl — 비전-언어 모델

nvidia/llama-3.3-nemotron-super-49b-v1.5 — NeMo 파인튜닝

nvidia/nemotron-3-content-safety, nvidia/nemotron-content-safety-reasoning-4b — 안전 가드

nvidia/nemoretriever-parse, nvidia/nemotron-parse — 파싱

nvidia/embed-qa-4, nvidia/nv-embed-v1 등 — 임베딩 모델

nvidia/nvclip — 비전 임베딩

nvidia/cosmos-reason2-8b — 추론

nvidia/riva-translate-4b-instruct-v1.1 — 번역

🔵 Qwen (6개)

qwen/qwen3.5-397b-a17b — 최신 397B MoE (활성 17B)

qwen/qwen3.5-122b-a10b — 최신 122B MoE (활성 10B)

qwen/qwen3-coder-480b-a35b-instruct — 코딩 특화 480B MoE

qwen/qwen3-next-80b-a3b-instruct — 하이브리드 어텐션

qwen/qwen3-next-80b-a3b-thinking — 추론 전용

qwen/qwen2.5-coder-32b-instruct — 코딩 (이전 세대)

🟡 GLM / ZhipuAI (3개)

z-ai/glm-5.1 — 최신 에이전트/코딩 특화 (5월 23일 출시)

z-ai/glm5 — 744B GLM-5

z-ai/glm4.7 — 코딩/툴콜 특화

🟠 DeepSeek (3개)

deepseek-ai/deepseek-v3.2 — 최신 버전

deepseek-ai/deepseek-v3.1-terminus — V3.1

deepseek-ai/deepseek-coder-6.7b-instruct — 코딩

🟣 Meta / Llama (11개)

meta/llama-4-maverick-17b-128e-instruct — 최신 Llama 4

meta/llama-3.3-70b-instruct, meta/llama-3.2-90b-vision-instruct

meta/llama-3.2-11b-vision-instruct, meta/llama-3.2-3b-instruct

meta/llama-3.1-405b-instruct, meta/llama-3.1-70b-instruct

meta/llama-3.1-8b-instruct, meta/codellama-70b

meta/llama-guard-4-12b — 안전 가드

🔴 Mistral (13개)

mistralai/mistral-large-3-675b-instruct-2512 — 최신 675B

mistralai/mistral-small-4-119b-2603 — 최신 소형

mistralai/devstral-2-123b-instruct-2512 — 코딩 특화

mistralai/codestral-22b-instruct-v0.1 — 코드 생성

mistralai/magistral-small-2506, mistralai/ministral-14b-instruct-2512

mistralai/mistral-large-2-instruct, mistralai/mistral-medium-3-instruct

nv-mistralai/mistral-nemo-12b-instruct, mistralai/mixtral-8x7b-instruct-v0.1

mistralai/mistral-nemotron — NVIDIA×Mistral 협업

⚪ Google / Gemma (7개)

google/gemma-4-31b-it — 최신 Gemma 4

google/gemma-3-27b-it, google/gemma-3-12b-it, google/gemma-3-4b-it

google/codegemma-1.1-7b, google/codegemma-7b

google/gemma-3n-e2b-it, google/gemma-3n-e4b-it

🟤 기타 모델

moonshotai/kimi-k2.5 — 최신 Kimi (한국어 강점)

moonshotai/kimi-k2-instruct, moonshotai/kimi-k2-thinking

openai/gpt-oss-120b — OpenAI 오픈소스!

openai/gpt-oss-20b — 오픈소스 소형

minimaxai/minimax-m2.7 — 230B MoE

stepfun-ai/step-3.5-flash — StepFun 최신

microsoft/phi-4-multimodal-instruct — Microsoft 멀티모달

microsoft/phi-4-mini-instruct, microsoft/phi-3.5-moe-instruct

stockmark/stockmark-2-100b-instruct — 일본어 특화

sarvamai/sarvam-m — 인도어 특화

writer/palmyra-fin-70b-32k, writer/palmyra-med-70b — 도메인 특화

bytedance/seed-oss-36b-instruct, zyphra/zamba2-7b-instruct

upstage/solar-10.7b-instruct, snowflake/arctic-embed-l

ai21labs/jamba-1.5-large-instruct, databricks/dbrx-instruct

ibm/granite-3.0-8b-instruct, 01-ai/yi-large

2. 핵심 발견: ZAI → NVIDIA 경유로 교체 가능

가장 중요한 발견은 현재 ZAI 프로바이더에서 유료/제한적으로 사용 중인 모델들이 NVIDIA에서 무료로 제공된다는 점입니다.

비교: ZAI vs NVIDIA (같은 GLM 모델)

ZAI (현재) NVIDIA (무료) GLM-5 동시성 1 RPM 40 GLM-5.1 미지원 RPM 40 ✅ GLM-4.7 동시성 2 RPM 40 base_url: api.z.ai/api/... integrate.api.nvidia.com/v1 모델명: glm-5-turbo z-ai/glm5

API 방식: Anthropic 호환 OpenAI 호환

ZAI의 가장 큰 문제는 동시성 제한 1이었습니다. 여러 크론 잡이 동시에 실행되면 병목이 발생합니다. NVIDIA 경유로 바꾸면 RPM 40으로 약 40배 늘어납니다.

3. OpenAI GPT-OSS도 무료?!

목록에서 가장 놀라운 발견 중 하나입니다. OpenAI의 오픈소스 모델인 GPT-OSS-120B와 GPT-OSS-20B도 NVIDIA에서 무료로 사용할 수 있습니다.

GPT-OSS는 OpenAI가 2026년에 공개한 오픈소스 대형 언어 모델로, GPT 계열의 성능을 오픈소스 커뮤니티에 제공하는 모델입니다. 120B 파라미터 버전과 20B 경량 버전이 있으며, NVIDIA API를 통해 분당 40회까지 무료로 호출할 수 있습니다.

4. Hermes Agent 연동 설정

Hermes Agent의 config.yaml에 NVIDIA를 추가 프로바이더로 등록하면, 134개 모델을 모두 사용할 수 있습니다.

Step 1: NVIDIA API 키 발급

build.nvidia.com 접속

NVIDIA 계정 생성 (무료)

프로필 → API Key → Generate API Key

키를 환경변수에 저장: export NVIDIA_API_KEY=nvapi-...

Step 2: config.yaml에 프로바이더 추가

custom_providers: name: zai base_url: https://api.z.ai/api/coding/paas/v4 api_key: '' api_mode: chat_completions name: nvidia base_url: https://integrate.api.nvidia.com/v1 api_key: '${NVIDIA_API_KEY}'

api_mode: chat_completions

Step 3: 모델 사용

# NVIDIA 경유로 GLM-5 사용 (동시성 1 → RPM 40) model: z-ai/glm5 provider: nvidia Qwen3.5 사용 model: qwen/qwen3.5-122b-a10b provider: nvidia OpenAI 오픈소스 GPT-OSS 사용 model: openai/gpt-oss-120b provider: nvidia Kimi K2.5 사용 model: moonshotai/kimi-k2.5

provider: nvidia

Step 4: 폴백 체인 구성 (추천)

model: default: z-ai/glm5 provider: nvidia fallback_providers: nvidia # NVIDIA 풀 (134개 모델) zai # 기존 ZAI 폴백 fallback_model: provider: nvidia

model: qwen/qwen3.5-122b-a10b

이 구성이면 메인 모델 장애 시 134개 모델 중 하나로 자동 전환됩니다.

5. 크론 잡 동시성 문제 해결

현재 Hermes Agent의 가장 큰 병목은 ZAI의 동시성 제한입니다. 매일 실행되는 크론 잡들이 많은데, ZAI 동시성 1이라서 하나씩 순차 실행해야 합니다.

현재 크론 잡 (매일):
03:30 정비 리포트 (GLM-5)     ← 동시성 1
08:00 iOS Trend (GLM-5)       ← 대기
09:00 AI Model Tracker (GLM-5) ← 대기
18:30 Invest Memo (GLM-5)     ← 대기
22:00 블로그 발행 (GLM-5)     ← 대기

NVIDIA 경유로 전환하면 RPM 40이므로, 여러 크론 잡이 겹쳐도 문제 없이 병렬 실행 가능합니다. 이것만으로도 전체 자동화 파이프라인의 처리량이 크게 향상됩니다.

6. 주의사항

데이터 기록: NVIDIA는 입력 데이터를 제품 개선에 사용한다고 명시. 민감한 정보는 주의

프로덕션 불가: 무료 티어는 프로토타입/연구 목적. 상용은 AI Enterprise 라이선스 필요

RPM 40: 개인 사용에는 충분하지만, 대규모 자동화에는 부족할 수 있음

모델 가용성: 모델이 업데이트되거나 제거될 수 있음 (2026년 4월 기준)

API 방식: ZAI는 Anthropic 호환, NVIDIA는 OpenAI 호환. 프롬프트 포맷에 약간의 차이 가능

마무리

NVIDIA API 키 하나로 134개 모델을 무료로 사용할 수 있다는 건 정말 파격적인 제안입니다. 특히 현재 ZAI에서 동시성 제한 1로 고생하던 GLM-5를 NVIDIA 경유로 바꾸면 RPM 40으로 약 40배 성능 향상이 가능합니다.

게다가 Qwen3.5, DeepSeek V3.2, Kimi K2.5, OpenAI GPT-OSS 등 최신 최고 성능 모델들도 모두 무료입니다. AI 에이전트의 프로바이더를 NVIDIA로 전환하면, 모델 선택의 폭이 크게 넓어지고 동시성 문제도 해결됩니다.

다음 글에서는 실제로 Hermes Agent에 NVIDIA 프로바이더를 추가하고, GLM-5를 NVIDIA 경유로 전환하는 과정을 다뤄보겠습니다.

'자동화&툴 리뷰' 카테고리의 다른 글

GitHub 이전의 오픈소스 세계 — 중심이 흔들릴 때 다시 생각하는 것들 (1)	2026.05.01
stitch가 유행시킨 DESIGN.md — AI 에이전트용 디자인 시스템 파일 총정리 (1)	2026.04.29
NVIDIA 무료 API 완벽 가이드: 네모트론, Gemini 2.5 Flash, GLM 성능 비교 (0)	2026.04.23
WorldMonitor 리뷰: 5만 Star 오픈소스 글로벌 인텔리전스 대시보드 — 브라우저 하나로 세상의 맥박을 읽다 (0)	2026.04.22
VS Code/Cursor 인프라 관리 자동화: alogin Skills 완벽 가이드 (1)	2026.04.21

현재글NVIDIA API 키 하나로 134개 AI 모델 무료: Qwen, GLM, DeepSeek, GPT-OSS까지

ICBM의 Dev 블로그

인공지능, 에이전트, ChatGPT, Git, Anthropic, 오픈소스, Cursor, 개발도구, 보안, AI에이전트, devops, llm, AI 에이전트, Claude, 자동화, Ai, gemini, claude code, OpenAI, AI 코딩,

Today :
Yesterday :

ICBM의 Dev 블로그

NVIDIA API 키 하나로 134개 AI 모델 무료: Qwen, GLM, DeepSeek, GPT-OSS까지

들어가며