AI 뉴스

oh-my-free-models - 무료 LLM 중 지금 가장 빠른 모델로 코딩 에이전트를 라우팅하는 로컬 프록시

노동1호 2026. 5. 6. 20:04

oh-my-free-models: 무료 LLM 중 가장 빠른 모델로 자동 라우팅

oh-my-free-models - 무료 LLM 중 지금 가장 빠른 모델로 코딩 에이전트를 라우팅하는 로컬 프록시

Free tier LLM을 코딩 에이전트에 활용하는 시대. 하지만 실제로 써보면 "스펙은 좋은데 막상 돌리면 문제일쌓"라는 걸 금방 알게 된다. Rate limit, latency 출렁임, quota 소진, 카탈로그 변경까지 — 이 모든 걸 자동으로 해결해주는 도구가 바로 oh-my-free-models (omfm)다.

무료 모델의 현실: 꺼져가는 램프

무료 LLM 코딩 에이전트를 세팅하고 나면간기래는 완벽하다. 그러나 실제로 돌려보면 네 군데에서 바로 벽에 부딪힌다.

Rate limit — 작업 중간에 429 에러가 튀어나온다. OpenRouter나 NVIDIA의 free 모델은 사전 경고 없이 429를 던진다. 도구 호출 한 번에정개 실행이 멈추고 사람이 직접 다시 시도해야 한다.

Latency 불안정 — 같은 모델이라도 아침에는 빠르던 것이 오후엔 못 쓸 정도로 느려진다. 시간대, 지역, 서버 부하에 따라 다르기 때문에 "이 모델이 빠르다"고 미리 고정할 수가 없다. 현재 이 순간 빠른 모델만이 존재한다.

Quota 소진 — 한 provider의 무료 할당량이 떨어지면? 지금은 키와 baseURL을 직접 바꿔야 한다. 에이전트 설정은 그 변화를 스스로 따라잡지 못한다.

카탈로그 변동 — 무료 모델은 새로 생기고, 사라지고, deprecated 표시가 붙는다. 대시보드가 알려주는 게 아니라 벽에 부딪혀서 알게 된다.

omfm이 해결하는 방식

oh-my-free-models는 이 모든 문제를 자동화한다. 핵심 원리는 간단하다.

선택한 무료 모델 풀을 구성하고, 그 안에서 현재 latency가 가장 낮은 모델로 실시간 라우팅하는 것. 429나 402 같은 rate limit 에러가 나면 해당 모델을 약 10분간 cooldown 처리하고 다른 모델로 자동 전환한다.

omfm은 OpenAI 호환 /v1 엔드포인트Anthropic 호환 /anthropic 엔드포인트를 모두 제공한다. 따라서 OpenAI-compatible 클라이언트라면 종류에 관계없이 omfm을 프록시로 사용할 수 있다.

지원 클라이언트와 연동 방법

omfm이 특히 빛나는 분야는 로컬/CLI 코딩 에이전트와의 연동이다.

OpenClaw, Hermes Agent, OpenCode — 이런 도구들은 OpenAI-compatible 엔드포인트를 받는다. baseURL을 http://localhost:4567/v1로, model을 omfm으로 바꾸기만 하면 된다. 설정 파일 수정 없이, 에이전트 설정은 그대로 둔 채 뒤에서는 무료 모델들의 latency 측정, 실패 모델 제외, provider 전환이 자동으로 진행된다.

Claude Code — Anthropic base URL을 http://localhost:4567/anthropic으로 지정하면 된다.

모델 그룹 분리omfm/fast, omfm/balanced, omfm/capable 세 가지 그룹으로 용도별로 모델 풀을 분리할 수 있다. 빠른 응답이 필요한 단순 작업엔 fast, 복잡한 reasoning이 필요한 작업엔 capable처럼 선별적으로 활용할 수 있다.

CLI로 손쉽게 관리

omfm은 직관적인 CLI 명령어를 제공한다.

omfm model     # 현재 라우팅 대상 모델 확인omfm start     # 프록시 서버 시작omfm status    # 연결된 모델들의 상태 확인omfm doctor    # 진단 테스트 실행omfm usage     # 사용량 통계 확인

백그라운드 서비스로 등록해두면 시스템 시작 시 자동으로 omfm이 실행된다.

설치 방법

npm으로 간단하게 설치할 수 있다.

npm install -g oh-my-free-modelsomfm start

Docker 환경도 지원한다.

mkdir omfm && cd omfmcurl -fsSL -o docker-compose.yml https://raw.githubusercontent.com/hakilee/oh-my-free-models/main/docker-compose.ymldocker compose up -d

서버가 실행되면 http://localhost:4567에서 프록시 엔드포인트를 사용할 수 있다.

핵심 정리

omfm은 무료 LLM의 불안정성을 자동 라우팅으로 보완하는 프록시 도구다. 핵심 가치를 세 가지로 압축하면:

안정성 — rate limit, quota 소진 시 자동 failover

속도 — 실시간 latency 측정으로 현재 가장 빠른 모델 선별

단순함 — endpoint URL만 바꾸면 기존 에이전트 그대로 사용 가능

비용을 절감하면서도 코딩 에이전트의 장애 빈도를 줄이고 싶다면, omfm은 꽤 실용적인 선택이다.


📚 출처

• https://github.com/hakilee/oh-my-free-models

• https://news.hada.io/topic?id=29215


📚 출처

https://news.hada.io/topic?id=29215