AI 뉴스

oh-my-free-models - 무료 LLM 중 지금 가장 빠른 모델로 코딩 에이전트를 라우팅하는 로컬 프록시

노동1호 2026. 5. 6. 20:04

oh-my-free-models: 무료 LLM 중 가장 빠른 모델로 자동 라우팅

oh-my-free-models - 무료 LLM 중 지금 가장 빠른 모델로 코딩 에이전트를 라우팅하는 로컬 프록시

Free tier LLM을 코딩 에이전트에 활용하는 시대. 하지만 실제로 써보면 "스펙은 좋은데 막상 돌리면 문제일쌓"라는 걸 금방 알게 된다. Rate limit, latency 출렁임, quota 소진, 카탈로그 변경까지 — 이 모든 걸 자동으로 해결해주는 도구가 바로 oh-my-free-models (omfm)다.

무료 모델의 현실: 꺼져가는 램프

무료 LLM 코딩 에이전트를 세팅하고 나면간기래는 완벽하다. 그러나 실제로 돌려보면 네 군데에서 바로 벽에 부딪힌다.

Rate limit — 작업 중간에 429 에러가 튀어나온다. OpenRouter나 NVIDIA의 free 모델은 사전 경고 없이 429를 던진다. 도구 호출 한 번에정개 실행이 멈추고 사람이 직접 다시 시도해야 한다.

Latency 불안정 — 같은 모델이라도 아침에는 빠르던 것이 오후엔 못 쓸 정도로 느려진다. 시간대, 지역, 서버 부하에 따라 다르기 때문에 "이 모델이 빠르다"고 미리 고정할 수가 없다. 현재 이 순간 빠른 모델만이 존재한다.

Quota 소진 — 한 provider의 무료 할당량이 떨어지면? 지금은 키와 baseURL을 직접 바꿔야 한다. 에이전트 설정은 그 변화를 스스로 따라잡지 못한다.

카탈로그 변동 — 무료 모델은 새로 생기고, 사라지고, deprecated 표시가 붙는다. 대시보드가 알려주는 게 아니라 벽에 부딪혀서 알게 된다.

omfm이 해결하는 방식

oh-my-free-models는 이 모든 문제를 자동화한다. 핵심 원리는 간단하다.

선택한 무료 모델 풀을 구성하고, 그 안에서 현재 latency가 가장 낮은 모델로 실시간 라우팅하는 것. 429나 402 같은 rate limit 에러가 나면 해당 모델을 약 10분간 cooldown 처리하고 다른 모델로 자동 전환한다.

omfm은 OpenAI 호환 /v1 엔드포인트와 Anthropic 호환 /anthropic 엔드포인트를 모두 제공한다. 따라서 OpenAI-compatible 클라이언트라면 종류에 관계없이 omfm을 프록시로 사용할 수 있다.

지원 클라이언트와 연동 방법

omfm이 특히 빛나는 분야는 로컬/CLI 코딩 에이전트와의 연동이다.

OpenClaw, Hermes Agent, OpenCode — 이런 도구들은 OpenAI-compatible 엔드포인트를 받는다. baseURL을 http://localhost:4567/v1로, model을 omfm으로 바꾸기만 하면 된다. 설정 파일 수정 없이, 에이전트 설정은 그대로 둔 채 뒤에서는 무료 모델들의 latency 측정, 실패 모델 제외, provider 전환이 자동으로 진행된다.

Claude Code — Anthropic base URL을 http://localhost:4567/anthropic으로 지정하면 된다.

모델 그룹 분리 — omfm/fast, omfm/balanced, omfm/capable 세 가지 그룹으로 용도별로 모델 풀을 분리할 수 있다. 빠른 응답이 필요한 단순 작업엔 fast, 복잡한 reasoning이 필요한 작업엔 capable처럼 선별적으로 활용할 수 있다.

CLI로 손쉽게 관리

omfm은 직관적인 CLI 명령어를 제공한다.

omfm model     # 현재 라우팅 대상 모델 확인omfm start     # 프록시 서버 시작omfm status    # 연결된 모델들의 상태 확인omfm doctor    # 진단 테스트 실행omfm usage     # 사용량 통계 확인

백그라운드 서비스로 등록해두면 시스템 시작 시 자동으로 omfm이 실행된다.

설치 방법

npm으로 간단하게 설치할 수 있다.

npm install -g oh-my-free-modelsomfm start

Docker 환경도 지원한다.

mkdir omfm && cd omfmcurl -fsSL -o docker-compose.yml https://raw.githubusercontent.com/hakilee/oh-my-free-models/main/docker-compose.ymldocker compose up -d

서버가 실행되면 http://localhost:4567에서 프록시 엔드포인트를 사용할 수 있다.

핵심 정리

omfm은 무료 LLM의 불안정성을 자동 라우팅으로 보완하는 프록시 도구다. 핵심 가치를 세 가지로 압축하면:

• 안정성 — rate limit, quota 소진 시 자동 failover

• 속도 — 실시간 latency 측정으로 현재 가장 빠른 모델 선별

• 단순함 — endpoint URL만 바꾸면 기존 에이전트 그대로 사용 가능

비용을 절감하면서도 코딩 에이전트의 장애 빈도를 줄이고 싶다면, omfm은 꽤 실용적인 선택이다.

📚 출처

• https://github.com/hakilee/oh-my-free-models

• https://news.hada.io/topic?id=29215

📚 출처

• https://news.hada.io/topic?id=29215

'AI 뉴스' 카테고리의 다른 글

AI가 당신의 데이터베이스를 삭제한 게 아니라, 당신이 삭제한 것이다 (0)	2026.05.06
Train Your Own LLM From Scratch - 처음부터 직접 LLM을 학습하는 실습 워크숍 완벽 가이드 (0)	2026.05.06
Bun(JS 런타임)이 Zig에서 Rust로 바이브 포팅되고 있음 — 개발자가 알아야 할 핵심 정리 (0)	2026.05.06
Show GN: Memex - 노트 간 의미 관계를 추론해 Claude 컨텍스트로 자동 주입하는 로컬 RAG MCP 서버 (0)	2026.05.06
AI로 인한 고용 종말이 (아마도) 일어나지 않을 이유 (3)	2026.05.06

현재글oh-my-free-models - 무료 LLM 중 지금 가장 빠른 모델로 코딩 에이전트를 라우팅하는 로컬 프록시

ICBM의 Dev 블로그

Cursor, gemini, Git, 오픈소스, 인공지능, Ai, 자동화, ChatGPT, AI 에이전트, 보안, llm, AI에이전트, Claude, 개발도구, AI 코딩, OpenAI, claude code, 에이전트, devops, Anthropic,

Today :
Yesterday :

일	월	화	수	목	금	토
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

ICBM의 Dev 블로그