자동화&툴 리뷰

NVIDIA API 키 하나로 134개 AI 모델 무료: Qwen, GLM, DeepSeek, GPT-OSS까지

노동1호 2026. 4. 23. 19:33

들어가며

NVIDIA API 키 하나로 134개 AI 모델 무료: Qwen, GLM, DeepSeek, GPT-OSS까지

앞선 글에서 NVIDIA NIM API가 기한 없이 무료라는 점을 다뤘습니다. 그런데 더 놀라운 사실이 있었습니다. NVIDIA API 키 하나로 Qwen, GLM, DeepSeek, Llama, Mistral 등 총 134개 모델을 전부 무료로 사용할 수 있다는 것입니다.

이번 글에서는 NVIDIA API에서 제공하는 전체 모델 목록을 정리하고, 특히 현재 ZAI 프로바이더에서 사용 중인 GLM-5를 NVIDIA 경유로 사용하면 어떤 이점이 있는지, 그리고 Hermes Agent에 어떻게 연동하는지 다룹니다.

1. 전체 모델 목록 (134개)

NVIDIA API의 /v1/models 엔드포인트를 호출하면 전체 모델 목록을 확인할 수 있습니다. 카테고리별로 정리해보겠습니다.

🟢 NVIDIA 자체 모델 (30개)

  • nvidia/nemotron-3-super-120b-a12b — Mamba-Transformer MoE, 1M 컨텍스트 (SWE-Bench 오픈소스 1위)
  • nvidia/nemotron-3-nano-30b-a3b — 엣지/PC용
  • nvidia/nemotron-4-340b-instruct — 이전 세대
  • nvidia/nemotron-mini-4b-instruct, nvidia/nemotron-nano-3-30b-a3b
  • nvidia/nemotron-nano-12b-v2-vl — 비전-언어 모델
  • nvidia/llama-3.3-nemotron-super-49b-v1.5 — NeMo 파인튜닝
  • nvidia/nemotron-3-content-safety, nvidia/nemotron-content-safety-reasoning-4b — 안전 가드
  • nvidia/nemoretriever-parse, nvidia/nemotron-parse — 파싱
  • nvidia/embed-qa-4, nvidia/nv-embed-v1 등 — 임베딩 모델
  • nvidia/nvclip — 비전 임베딩
  • nvidia/cosmos-reason2-8b — 추론
  • nvidia/riva-translate-4b-instruct-v1.1 — 번역

🔵 Qwen (6개)

  • qwen/qwen3.5-397b-a17b — 최신 397B MoE (활성 17B)
  • qwen/qwen3.5-122b-a10b — 최신 122B MoE (활성 10B)
  • qwen/qwen3-coder-480b-a35b-instruct — 코딩 특화 480B MoE
  • qwen/qwen3-next-80b-a3b-instruct — 하이브리드 어텐션
  • qwen/qwen3-next-80b-a3b-thinking — 추론 전용
  • qwen/qwen2.5-coder-32b-instruct — 코딩 (이전 세대)

🟡 GLM / ZhipuAI (3개)

  • z-ai/glm-5.1 — 최신 에이전트/코딩 특화 (5월 23일 출시)
  • z-ai/glm5 — 744B GLM-5
  • z-ai/glm4.7 — 코딩/툴콜 특화

🟠 DeepSeek (3개)

  • deepseek-ai/deepseek-v3.2 — 최신 버전
  • deepseek-ai/deepseek-v3.1-terminus — V3.1
  • deepseek-ai/deepseek-coder-6.7b-instruct — 코딩

🟣 Meta / Llama (11개)

  • meta/llama-4-maverick-17b-128e-instruct — 최신 Llama 4
  • meta/llama-3.3-70b-instruct, meta/llama-3.2-90b-vision-instruct
  • meta/llama-3.2-11b-vision-instruct, meta/llama-3.2-3b-instruct
  • meta/llama-3.1-405b-instruct, meta/llama-3.1-70b-instruct
  • meta/llama-3.1-8b-instruct, meta/codellama-70b
  • meta/llama-guard-4-12b — 안전 가드

🔴 Mistral (13개)

  • mistralai/mistral-large-3-675b-instruct-2512 — 최신 675B
  • mistralai/mistral-small-4-119b-2603 — 최신 소형
  • mistralai/devstral-2-123b-instruct-2512 — 코딩 특화
  • mistralai/codestral-22b-instruct-v0.1 — 코드 생성
  • mistralai/magistral-small-2506, mistralai/ministral-14b-instruct-2512
  • mistralai/mistral-large-2-instruct, mistralai/mistral-medium-3-instruct
  • nv-mistralai/mistral-nemo-12b-instruct, mistralai/mixtral-8x7b-instruct-v0.1
  • mistralai/mistral-nemotron — NVIDIA×Mistral 협업

⚪ Google / Gemma (7개)

  • google/gemma-4-31b-it — 최신 Gemma 4
  • google/gemma-3-27b-it, google/gemma-3-12b-it, google/gemma-3-4b-it
  • google/codegemma-1.1-7b, google/codegemma-7b
  • google/gemma-3n-e2b-it, google/gemma-3n-e4b-it

🟤 기타 모델

  • moonshotai/kimi-k2.5 — 최신 Kimi (한국어 강점)
  • moonshotai/kimi-k2-instruct, moonshotai/kimi-k2-thinking
  • openai/gpt-oss-120b — OpenAI 오픈소스!
  • openai/gpt-oss-20b — 오픈소스 소형
  • minimaxai/minimax-m2.7 — 230B MoE
  • stepfun-ai/step-3.5-flash — StepFun 최신
  • microsoft/phi-4-multimodal-instruct — Microsoft 멀티모달
  • microsoft/phi-4-mini-instruct, microsoft/phi-3.5-moe-instruct
  • stockmark/stockmark-2-100b-instruct — 일본어 특화
  • sarvamai/sarvam-m — 인도어 특화
  • writer/palmyra-fin-70b-32k, writer/palmyra-med-70b — 도메인 특화
  • bytedance/seed-oss-36b-instruct, zyphra/zamba2-7b-instruct
  • upstage/solar-10.7b-instruct, snowflake/arctic-embed-l
  • ai21labs/jamba-1.5-large-instruct, databricks/dbrx-instruct
  • ibm/granite-3.0-8b-instruct, 01-ai/yi-large
  • NVIDIA API 키 하나로 134개 AI 모델 무료: Qwen, GLM, DeepSeek, GPT-OSS까지

2. 핵심 발견: ZAI → NVIDIA 경유로 교체 가능

가장 중요한 발견은 현재 ZAI 프로바이더에서 유료/제한적으로 사용 중인 모델들이 NVIDIA에서 무료로 제공된다는 점입니다.

비교: ZAI vs NVIDIA (같은 GLM 모델)

              ZAI (현재)              NVIDIA (무료)

GLM-5 동시성 1 RPM 40

GLM-5.1 미지원 RPM 40 ✅

GLM-4.7 동시성 2 RPM 40

base_url: api.z.ai/api/... integrate.api.nvidia.com/v1

모델명: glm-5-turbo z-ai/glm5

API 방식: Anthropic 호환 OpenAI 호환

ZAI의 가장 큰 문제는 동시성 제한 1이었습니다. 여러 크론 잡이 동시에 실행되면 병목이 발생합니다. NVIDIA 경유로 바꾸면 RPM 40으로 약 40배 늘어납니다.

3. OpenAI GPT-OSS도 무료?!

목록에서 가장 놀라운 발견 중 하나입니다. OpenAI의 오픈소스 모델인 GPT-OSS-120B와 GPT-OSS-20B도 NVIDIA에서 무료로 사용할 수 있습니다.

GPT-OSS는 OpenAI가 2026년에 공개한 오픈소스 대형 언어 모델로, GPT 계열의 성능을 오픈소스 커뮤니티에 제공하는 모델입니다. 120B 파라미터 버전과 20B 경량 버전이 있으며, NVIDIA API를 통해 분당 40회까지 무료로 호출할 수 있습니다.

4. Hermes Agent 연동 설정

Hermes Agent의 config.yaml에 NVIDIA를 추가 프로바이더로 등록하면, 134개 모델을 모두 사용할 수 있습니다.

Step 1: NVIDIA API 키 발급

  1. build.nvidia.com 접속
  2. NVIDIA 계정 생성 (무료)
  3. 프로필 → API Key → Generate API Key
  4. 키를 환경변수에 저장: export NVIDIA_API_KEY=nvapi-...

Step 2: config.yaml에 프로바이더 추가

custom_providers:

  • name: zai

base_url: https://api.z.ai/api/coding/paas/v4

api_key: ''

api_mode: chat_completions

  • name: nvidia

base_url: https://integrate.api.nvidia.com/v1

api_key: '${NVIDIA_API_KEY}'

api_mode: chat_completions

Step 3: 모델 사용

# NVIDIA 경유로 GLM-5 사용 (동시성 1 → RPM 40)

model: z-ai/glm5

provider: nvidia

Qwen3.5 사용

model: qwen/qwen3.5-122b-a10b

provider: nvidia

OpenAI 오픈소스 GPT-OSS 사용

model: openai/gpt-oss-120b

provider: nvidia

Kimi K2.5 사용

model: moonshotai/kimi-k2.5

provider: nvidia

Step 4: 폴백 체인 구성 (추천)

model:

default: z-ai/glm5

provider: nvidia

fallback_providers:

  • nvidia # NVIDIA 풀 (134개 모델)
  • zai # 기존 ZAI 폴백

fallback_model:

provider: nvidia

model: qwen/qwen3.5-122b-a10b

이 구성이면 메인 모델 장애 시 134개 모델 중 하나로 자동 전환됩니다.

5. 크론 잡 동시성 문제 해결

현재 Hermes Agent의 가장 큰 병목은 ZAI의 동시성 제한입니다. 매일 실행되는 크론 잡들이 많은데, ZAI 동시성 1이라서 하나씩 순차 실행해야 합니다.

현재 크론 잡 (매일):

03:30 정비 리포트 (GLM-5) ← 동시성 1

08:00 iOS Trend (GLM-5) ← 대기

09:00 AI Model Tracker (GLM-5) ← 대기

18:30 Invest Memo (GLM-5) ← 대기

22:00 블로그 발행 (GLM-5) ← 대기

NVIDIA 경유로 전환하면 RPM 40이므로, 여러 크론 잡이 겹쳐도 문제 없이 병렬 실행 가능합니다. 이것만으로도 전체 자동화 파이프라인의 처리량이 크게 향상됩니다.

6. 주의사항

  • 데이터 기록: NVIDIA는 입력 데이터를 제품 개선에 사용한다고 명시. 민감한 정보는 주의
  • 프로덕션 불가: 무료 티어는 프로토타입/연구 목적. 상용은 AI Enterprise 라이선스 필요
  • RPM 40: 개인 사용에는 충분하지만, 대규모 자동화에는 부족할 수 있음
  • 모델 가용성: 모델이 업데이트되거나 제거될 수 있음 (2026년 4월 기준)
  • API 방식: ZAI는 Anthropic 호환, NVIDIA는 OpenAI 호환. 프롬프트 포맷에 약간의 차이 가능

마무리

NVIDIA API 키 하나로 134개 모델을 무료로 사용할 수 있다는 건 정말 파격적인 제안입니다. 특히 현재 ZAI에서 동시성 제한 1로 고생하던 GLM-5를 NVIDIA 경유로 바꾸면 RPM 40으로 약 40배 성능 향상이 가능합니다.

게다가 Qwen3.5, DeepSeek V3.2, Kimi K2.5, OpenAI GPT-OSS 등 최신 최고 성능 모델들도 모두 무료입니다. AI 에이전트의 프로바이더를 NVIDIA로 전환하면, 모델 선택의 폭이 크게 넓어지고 동시성 문제도 해결됩니다.

다음 글에서는 실제로 Hermes Agent에 NVIDIA 프로바이더를 추가하고, GLM-5를 NVIDIA 경유로 전환하는 과정을 다뤄보겠습니다.