AI 뉴스

whichllm - 내 하드웨어에서 실제로 돌아가고 최고 성능을 내는 로컬 LLM 찾기 완벽 가이드

노동1호 2026. 5. 18. 23:05

whichllm - 내 하드웨어에서 실제로 돌아가고 최고 성능을 내는 로컬 LLM 찾기 완벽 가이드

whichllm - 내 하드웨어에서 실제로 돌아가고 최고 성능을 내는 로컬 LLM 찾기 완벽 가이드

로컬에서 대규모 언어 모델을 실행하려고 할 때, 가장 큰 고민은 하나입니다. "내 하드웨어에 맞는 모델은 뭘까?" 단순히 VRAM 용량만 맞추면 된다고 생각하기 쉽지만, 실제로는 같은 27B 파라미터 모델이라도 양자화 방식, 아키텍처, 학습 데이터에 따라 성능 차이가 크게 납니다. 파라미터 수만으로는 절대 비교할 수 없는 세계가 로컬 LLM입니다.

whichllm은 무엇인가

whichllm은 이 문제를 근본적으로 해결하는 CLI 도구입니다. 사용자의 하드웨어를 자동으로 감지하고, HuggingFace에 공개된 수천 개의 모델 중에서 실제로 시스템에서 돌아가고 성능이 좋은 모델을 순위로 제시합니다. 핵심 차별점은 단순히 VRAM에 맞는 가장 큰 모델을 추천하는 것이 아니라, 그 안에서 실제로 가장 좋은 모델을 골라준다는 것입니다.

예를 들어 RTX 4090 환경에서 시뮬레이션하면 32B 모델도 들어갈 수 있지만, whichllm은 신세대인 27B 모델인 Qwen3.6-27B를 1위로 추천합니다. 파라미터 수보다 모델 세대의 신선함과 실제 벤치마크 성능을 우선시하기 때문입니다.

핵심 기능 살펴보기

실측 벤치마크 기반 순위 매기기

whichllm은 하나의 벤치마크가 아닌 여러 소스를 통합하여 0에서 100 사이의 점수를 산출합니다. 사용되는 벤치마크 소스는 LiveBench, Artificial Analysis, Aider, multimodal과 vision 테스트, Chatbot Arena ELO, 그리고 Open LLM Leaderboard입니다. 이렇게 여러 벤치마크를 병합하여 채점함으로써 특정 벤치마크에 과적합된 모델을 걸러내고, 다양한 작업에서 균형 잡힌 성능을 보이는 모델을 찾습니다.

최신 모델 인식 시스템

오래된 리더보드의 문제점은 과거에 학습된 모델이 최신 모델보다 높은 점수를 유지할 수 있다는 것입니다. whichllm은 모델의 게재 시점을 기준으로 가중치를 조절하는 recency-aware 시스템을 적용합니다. 2024년 이전에 공개된 모델은 점수가 자동으로 감점되어, 최신 모델이 구버전 점수로 순위를 독단적으로 차지하지 못하도록 합니다.

다단계 신뢰도 등급화

모든 벤치마크 결과의 신뢰도를 5단계로 분류합니다. direct는 직접 측정된 결과, variant는 변형 모델의 결과, base_model은 베이스 모델에서 유추된 결과, line_interp는 보간된 결과, self_reported는 개발자가 자체 보고한 결과입니다. 각 등급마다 신뢰도 가중치가 다르며, 업로더가 허위 자체 보고를하거나 작은 포크가 큰 베이스 모델의 점수를 빌려오는 크로스 패밀리 상속도 차단합니다. 또한 파라미터 수가 패밀리dominant 멤버에서 2배 이상 차이가 나면 상속을 거부합니다.

하드웨어 감지 및 VRAM 추정

GPU, CPU, RAM을 자동으로 감지하고, 각 모델의 VRAM 소모량을 정밀하게 계산합니다. 계산 요소는 가중치 크기에 GQA KV 캐시, 활성화 값, 오버헤드를 모두 포함합니다. MoE 모델의 경우 active 파라미터와 total 파라미터를 분리하여 계산하고,통합 메모리 사용과 PCIe 부분 오프로드까지 반영합니다. 속도 추정은 대역폭bound 기준으로 산출됩니다.

지원 환경

whichllm은 현재까지 NVIDIA, AMD, Apple Silicon, 그리고 CPU 전용 환경 모두를 지원합니다. 운영 체제와 관계없이 Linux, macOS, Windows에서 실행할 수 있으며, 다양한 하드웨어 조합에 맞춰 최적의 모델을 추천합니다.

주요 사용 명령어

whichllm - 내 하드웨어에서 실제로 돌아가고 최고 성능을 내는 로컬 LLM 찾기 완벽 가이드

whichllm을 설치한 후 터미널에서 간단한 명령어만 입력하면 됩니다.

모델 추천을 받으려면 시스템에 연결된 하드웨어 정보를 자동으로 수집하여 적절한 모델을 제안합니다. 별도 설정이나 구성 파일이 필요하지 않습니다.

특정 GPU를 시뮬레이션하려면 --gpu 옵션으로 GPU 이름을 지정합니다. RTX 5090의 성능이 실기형에서 어떤 모델을 구동할 수 있는지 구매 전에 확인할 수 있습니다.

특정 모델에 필요한 하드웨어를 역방향으로 조회하려면 plan 명령어를 사용합니다. 예를 들어 llama 3 70b를 실행하려면 어떤 GPU가 필요한지 알려줍니다.

현재 머신과 후보 GPU 간의 차이를 비교하려면 upgrade 명령어를 사용합니다. RTX 4090에서 RTX 5090으로 전환할 때 성능 향상이 어느 정도인지 사전에 파악할 수 있습니다.

원클릭 모델 실행

whichllm의 가장 강력한 기능 중 하나는 run 서브커맨드입니다. 이 명령어는 모델의 다운로드부터 격리 환경 생성, 의존성 설치, 대화형 채팅까지 원커맨드로 처리합니다. uv를 사용하여 격리된 파이썬 환경을 자동으로 구성하므로, 별도로 가상 환경을 설정할 필요가 없습니다. GGUF, AWQ, GPTQ, FP16, BF16 등 모든 주요 양자화 포맷을 지원합니다.

Ollama 연동 및 코드 스니펫

whichllm의 JSON 출력은 다른 도구와 파이프라인 구성이 가능합니다. whichllm --top 1 --json 명령어의 출력을 jq로 파싱하면 Ollama에 바로 전달할 수 있습니다. 또한 snippet 서브커맨드를 사용하면 특정 모델에 대한 복붙 가능한 Python 코드를 생성합니다. llama_cpp 라이브러리의 from_pretrained 호출부터 채팅 완성까지 필요한 모든 코드를 한번에 얻을 수 있습니다.

설치 방법

whichllm은 PyPI에 공개되어 있어 pip으로 간단하게 설치할 수 있습니다. MIT 라이선스로 상업적 사용도 자유롭습니다.

마치며

로컬 LLM 환경에서 올바른 모델을 선택하는 것은 간단한 일이 아닙니다. VRAM 용량, 양자화 방식, 벤치마크 성능, 모델 세대, 아키텍처 등 고려해야 할 변수가 너무 많습니다. whichllm은 이 모든 복잡성을 자동화하여 사용자에게 명확한 답변을 제공합니다. 단순히 파라미터 수로 비교하던 시대는 지났습니다. 실제로 돌아가고 성능이 좋은 모델을 찾는 시대, 그것이 whichllm이 제시하는 새로운 기준입니다.

로컬에서 LLM을 활용하려는 모든 개발자와 연구자에게 whichllm은 필수 도구가 될 것입니다. 자신의 하드웨어에 맞는 최적의 모델을 찾는 시간이 단 몇 초로 줄었다는 것은, 실험과 개발의 속도를 혁신적으로 빠르게 만들 것입니다.


📚 출처

https://news.hada.io/topic?id=29613