들어가며

앞선 글에서 NVIDIA NIM API가 기한 없이 무료라는 점을 다뤘습니다. 그런데 더 놀라운 사실이 있었습니다. NVIDIA API 키 하나로 Qwen, GLM, DeepSeek, Llama, Mistral 등 총 134개 모델을 전부 무료로 사용할 수 있다는 것입니다.
이번 글에서는 NVIDIA API에서 제공하는 전체 모델 목록을 정리하고, 특히 현재 ZAI 프로바이더에서 사용 중인 GLM-5를 NVIDIA 경유로 사용하면 어떤 이점이 있는지, 그리고 Hermes Agent에 어떻게 연동하는지 다룹니다.
1. 전체 모델 목록 (134개)
NVIDIA API의 /v1/models 엔드포인트를 호출하면 전체 모델 목록을 확인할 수 있습니다. 카테고리별로 정리해보겠습니다.
🟢 NVIDIA 자체 모델 (30개)
- nvidia/nemotron-3-super-120b-a12b — Mamba-Transformer MoE, 1M 컨텍스트 (SWE-Bench 오픈소스 1위)
- nvidia/nemotron-3-nano-30b-a3b — 엣지/PC용
- nvidia/nemotron-4-340b-instruct — 이전 세대
- nvidia/nemotron-mini-4b-instruct, nvidia/nemotron-nano-3-30b-a3b
- nvidia/nemotron-nano-12b-v2-vl — 비전-언어 모델
- nvidia/llama-3.3-nemotron-super-49b-v1.5 — NeMo 파인튜닝
- nvidia/nemotron-3-content-safety, nvidia/nemotron-content-safety-reasoning-4b — 안전 가드
- nvidia/nemoretriever-parse, nvidia/nemotron-parse — 파싱
- nvidia/embed-qa-4, nvidia/nv-embed-v1 등 — 임베딩 모델
- nvidia/nvclip — 비전 임베딩
- nvidia/cosmos-reason2-8b — 추론
- nvidia/riva-translate-4b-instruct-v1.1 — 번역
🔵 Qwen (6개)
- qwen/qwen3.5-397b-a17b — 최신 397B MoE (활성 17B)
- qwen/qwen3.5-122b-a10b — 최신 122B MoE (활성 10B)
- qwen/qwen3-coder-480b-a35b-instruct — 코딩 특화 480B MoE
- qwen/qwen3-next-80b-a3b-instruct — 하이브리드 어텐션
- qwen/qwen3-next-80b-a3b-thinking — 추론 전용
- qwen/qwen2.5-coder-32b-instruct — 코딩 (이전 세대)
🟡 GLM / ZhipuAI (3개)
- z-ai/glm-5.1 — 최신 에이전트/코딩 특화 (5월 23일 출시)
- z-ai/glm5 — 744B GLM-5
- z-ai/glm4.7 — 코딩/툴콜 특화
🟠 DeepSeek (3개)
- deepseek-ai/deepseek-v3.2 — 최신 버전
- deepseek-ai/deepseek-v3.1-terminus — V3.1
- deepseek-ai/deepseek-coder-6.7b-instruct — 코딩
🟣 Meta / Llama (11개)
- meta/llama-4-maverick-17b-128e-instruct — 최신 Llama 4
- meta/llama-3.3-70b-instruct, meta/llama-3.2-90b-vision-instruct
- meta/llama-3.2-11b-vision-instruct, meta/llama-3.2-3b-instruct
- meta/llama-3.1-405b-instruct, meta/llama-3.1-70b-instruct
- meta/llama-3.1-8b-instruct, meta/codellama-70b
- meta/llama-guard-4-12b — 안전 가드
🔴 Mistral (13개)
- mistralai/mistral-large-3-675b-instruct-2512 — 최신 675B
- mistralai/mistral-small-4-119b-2603 — 최신 소형
- mistralai/devstral-2-123b-instruct-2512 — 코딩 특화
- mistralai/codestral-22b-instruct-v0.1 — 코드 생성
- mistralai/magistral-small-2506, mistralai/ministral-14b-instruct-2512
- mistralai/mistral-large-2-instruct, mistralai/mistral-medium-3-instruct
- nv-mistralai/mistral-nemo-12b-instruct, mistralai/mixtral-8x7b-instruct-v0.1
- mistralai/mistral-nemotron — NVIDIA×Mistral 협업
⚪ Google / Gemma (7개)
- google/gemma-4-31b-it — 최신 Gemma 4
- google/gemma-3-27b-it, google/gemma-3-12b-it, google/gemma-3-4b-it
- google/codegemma-1.1-7b, google/codegemma-7b
- google/gemma-3n-e2b-it, google/gemma-3n-e4b-it
🟤 기타 모델
- moonshotai/kimi-k2.5 — 최신 Kimi (한국어 강점)
- moonshotai/kimi-k2-instruct, moonshotai/kimi-k2-thinking
- openai/gpt-oss-120b — OpenAI 오픈소스!
- openai/gpt-oss-20b — 오픈소스 소형
- minimaxai/minimax-m2.7 — 230B MoE
- stepfun-ai/step-3.5-flash — StepFun 최신
- microsoft/phi-4-multimodal-instruct — Microsoft 멀티모달
- microsoft/phi-4-mini-instruct, microsoft/phi-3.5-moe-instruct
- stockmark/stockmark-2-100b-instruct — 일본어 특화
- sarvamai/sarvam-m — 인도어 특화
- writer/palmyra-fin-70b-32k, writer/palmyra-med-70b — 도메인 특화
- bytedance/seed-oss-36b-instruct, zyphra/zamba2-7b-instruct
- upstage/solar-10.7b-instruct, snowflake/arctic-embed-l
- ai21labs/jamba-1.5-large-instruct, databricks/dbrx-instruct
- ibm/granite-3.0-8b-instruct, 01-ai/yi-large

2. 핵심 발견: ZAI → NVIDIA 경유로 교체 가능
가장 중요한 발견은 현재 ZAI 프로바이더에서 유료/제한적으로 사용 중인 모델들이 NVIDIA에서 무료로 제공된다는 점입니다.
비교: ZAI vs NVIDIA (같은 GLM 모델)
ZAI (현재) NVIDIA (무료)
GLM-5 동시성 1 RPM 40
GLM-5.1 미지원 RPM 40 ✅
GLM-4.7 동시성 2 RPM 40
base_url: api.z.ai/api/... integrate.api.nvidia.com/v1
모델명: glm-5-turbo z-ai/glm5
API 방식: Anthropic 호환 OpenAI 호환
ZAI의 가장 큰 문제는 동시성 제한 1이었습니다. 여러 크론 잡이 동시에 실행되면 병목이 발생합니다. NVIDIA 경유로 바꾸면 RPM 40으로 약 40배 늘어납니다.
3. OpenAI GPT-OSS도 무료?!
목록에서 가장 놀라운 발견 중 하나입니다. OpenAI의 오픈소스 모델인 GPT-OSS-120B와 GPT-OSS-20B도 NVIDIA에서 무료로 사용할 수 있습니다.
GPT-OSS는 OpenAI가 2026년에 공개한 오픈소스 대형 언어 모델로, GPT 계열의 성능을 오픈소스 커뮤니티에 제공하는 모델입니다. 120B 파라미터 버전과 20B 경량 버전이 있으며, NVIDIA API를 통해 분당 40회까지 무료로 호출할 수 있습니다.
4. Hermes Agent 연동 설정
Hermes Agent의 config.yaml에 NVIDIA를 추가 프로바이더로 등록하면, 134개 모델을 모두 사용할 수 있습니다.
Step 1: NVIDIA API 키 발급
- build.nvidia.com 접속
- NVIDIA 계정 생성 (무료)
- 프로필 → API Key → Generate API Key
- 키를 환경변수에 저장:
export NVIDIA_API_KEY=nvapi-...
Step 2: config.yaml에 프로바이더 추가
custom_providers:
- name: zai
base_url: https://api.z.ai/api/coding/paas/v4
api_key: ''
api_mode: chat_completions
- name: nvidia
base_url: https://integrate.api.nvidia.com/v1
api_key: '${NVIDIA_API_KEY}'
api_mode: chat_completions
Step 3: 모델 사용
# NVIDIA 경유로 GLM-5 사용 (동시성 1 → RPM 40)
model: z-ai/glm5
provider: nvidia
Qwen3.5 사용
model: qwen/qwen3.5-122b-a10b
provider: nvidia
OpenAI 오픈소스 GPT-OSS 사용
model: openai/gpt-oss-120b
provider: nvidia
Kimi K2.5 사용
model: moonshotai/kimi-k2.5
provider: nvidia
Step 4: 폴백 체인 구성 (추천)
model:
default: z-ai/glm5
provider: nvidia
fallback_providers:
- nvidia # NVIDIA 풀 (134개 모델)
- zai # 기존 ZAI 폴백
fallback_model:
provider: nvidia
model: qwen/qwen3.5-122b-a10b
이 구성이면 메인 모델 장애 시 134개 모델 중 하나로 자동 전환됩니다.
5. 크론 잡 동시성 문제 해결
현재 Hermes Agent의 가장 큰 병목은 ZAI의 동시성 제한입니다. 매일 실행되는 크론 잡들이 많은데, ZAI 동시성 1이라서 하나씩 순차 실행해야 합니다.
현재 크론 잡 (매일):
03:30 정비 리포트 (GLM-5) ← 동시성 1
08:00 iOS Trend (GLM-5) ← 대기
09:00 AI Model Tracker (GLM-5) ← 대기
18:30 Invest Memo (GLM-5) ← 대기
22:00 블로그 발행 (GLM-5) ← 대기
NVIDIA 경유로 전환하면 RPM 40이므로, 여러 크론 잡이 겹쳐도 문제 없이 병렬 실행 가능합니다. 이것만으로도 전체 자동화 파이프라인의 처리량이 크게 향상됩니다.
6. 주의사항
- 데이터 기록: NVIDIA는 입력 데이터를 제품 개선에 사용한다고 명시. 민감한 정보는 주의
- 프로덕션 불가: 무료 티어는 프로토타입/연구 목적. 상용은 AI Enterprise 라이선스 필요
- RPM 40: 개인 사용에는 충분하지만, 대규모 자동화에는 부족할 수 있음
- 모델 가용성: 모델이 업데이트되거나 제거될 수 있음 (2026년 4월 기준)
- API 방식: ZAI는 Anthropic 호환, NVIDIA는 OpenAI 호환. 프롬프트 포맷에 약간의 차이 가능
마무리
NVIDIA API 키 하나로 134개 모델을 무료로 사용할 수 있다는 건 정말 파격적인 제안입니다. 특히 현재 ZAI에서 동시성 제한 1로 고생하던 GLM-5를 NVIDIA 경유로 바꾸면 RPM 40으로 약 40배 성능 향상이 가능합니다.
게다가 Qwen3.5, DeepSeek V3.2, Kimi K2.5, OpenAI GPT-OSS 등 최신 최고 성능 모델들도 모두 무료입니다. AI 에이전트의 프로바이더를 NVIDIA로 전환하면, 모델 선택의 폭이 크게 넓어지고 동시성 문제도 해결됩니다.
다음 글에서는 실제로 Hermes Agent에 NVIDIA 프로바이더를 추가하고, GLM-5를 NVIDIA 경유로 전환하는 과정을 다뤄보겠습니다.
'자동화&툴 리뷰' 카테고리의 다른 글
| GitHub 이전의 오픈소스 세계 — 중심이 흔들릴 때 다시 생각하는 것들 (1) | 2026.05.01 |
|---|---|
| stitch가 유행시킨 DESIGN.md — AI 에이전트용 디자인 시스템 파일 총정리 (1) | 2026.04.29 |
| NVIDIA 무료 API 완벽 가이드: 네모트론, Gemini 2.5 Flash, GLM 성능 비교 (0) | 2026.04.23 |
| WorldMonitor 리뷰: 5만 Star 오픈소스 글로벌 인텔리전스 대시보드 — 브라우저 하나로 세상의 맥박을 읽다 (0) | 2026.04.22 |
| VS Code/Cursor 인프라 관리 자동화: alogin Skills 완벽 가이드 (1) | 2026.04.21 |