
Needle - Gemini 도구 호출을 증류한 2600만 파라미터 모델 완벽 가이드
Published: 2026-05-14 | Category: AI/ML | Tags: AI, LLM, Gemini, Edge AI, Tool Calling, distilled model, 26M parameters
도입: 에지 기기용 AI의 새 지평
AI 모델의 크기가 기하급수적으로 커지는 시대, 반대로 작고 효율적인 모델에 대한 수요도 높아지고 있다. Cactus(YC S25)에서 새로운 접근법을 제시했다. 바로 Needle이다. 2,600만 파라미터라는 놀랍도록 작은 크기로, Gemini 3.1의 도구 호출(tool calling) 능력을 증류(distillation)한 모델이다.
이 모델은 бюджет 스마트폰, 스마트워치, 스마트글래스 같은 에지 기기에서도 쾌적하게 동작한다. 맥/PC에서 로컬로 파인튜닝할 수 있을 만큼 가볍고, 동시에 6,000 토큰/초의 프리필 속도와 1,200 토큰/초의 디코딩 속도를 달성했다. 완전 오픈소스다.
1. Needle이란 무엇인가
Needle은 Gemini 3.1의 도구 호출 기능을 26M 파라미터로 증류한 함수 호출(Function Calling) 모델이다. Cactus에서 개발했으며, 아키텍처 명칭은 Simple Attention Network다.
핵심 사양
| 항목 | 수치 |
|---|---|
| 파라미터 수 | 2,600만 (26M) |
| 원본 모델 | Gemini 3.1 |
| 아키텍처 | Simple Attention Network |
| 프리필 속도 | 6,000 토큰/초 |
| 디코딩 속도 | 1,200 토큰/초 |
| 공개 여부 | 완전 오픈소스 |
어디서 확인하나
• GitHub: cactus-compute/needle
• Hugging Face: Cactus-Compute/needle
• 데모: Cactus 플랫폼에서 실물 확인 가능
2. 왜 Needle이 중요한가
2.1 에지 AI의 딜레마
기존 AI 에이전트(Agentic AI) 시스템은 대부분 거대 모델에 의존했다. 클라우드 기반이 기본이라 네트워크 지연, 개인정보 보호 문제, 서비스 비용 등의 부담이 따라붙었다. 특히 도구 호출은 에이전트의 핵심 기능인데, 소형 모델에서는 정확도가 현저히 떨어지는 것이 현실이었다.
Needle은 이 문제를 증류(Distillation)라는 방식으로 해결한다. 거대 모델(Gemini 3.1)이 가진 도구 호출 능력을 작은 모델로 압축한 것이다.
2.2Simple Attention Network 아키텍처
Cactus는 표준 트랜스포머 대신 Simple Attention Network라는 경량 아키텍처를 채택했다. 이것이 가능하게 한 핵심 요소는 다음과 같다:
• 적지식 압축: 도구 호출에만특화된 경량 구조
• 효율적인 어텐션: 멀티헤드 어텐션의 복잡도를 줄이고 특정 패턴에 집중
• 작은 모델 최적화: 26M 파라미터에 맞춘 메모리/연산 효율화
2.3 로컬 파인튜닝 지원
26M 파라미터라는 크기 덕분에 일반적인 GPU 없이도 맥(Mac)이나 PC에서 직접 파인튜닝할 수 있다. 이는 다음과 같은 시나리오를 가능하게 한다:
• 자체 도구셋 최적화: 자사 API에 맞춘 도구 호출 커스터마이징
• 프라이버시: 데이터가 외부로 나가지 않는 온디바이스 학습
• 비용 절감: 클라우드 GPU 비용 없음
3. 실전 활용법
3.1 빠른 시작
# Hugging Face에서 모델 로드from transformers import AutoModelForCausalLM, AutoTokenizermodel_name = "Cactus-Compute/needle"tokenizer = AutoTokenizer.from_pretrained(model_name)model = AutoModelForCausalLM.from_pretrained(model_name)# 도구 호출 예시tools = [{"name": "get_weather", "description": "날씨 확인", "parameters": {"type": "object", "properties": {"city": {"type": "string"}}}},{"name": "search_db", "description": "DB 검색", "parameters": {"type": "object", "properties": {"query": {"type": "string"}}}}]prompt = "서울 날씨 알려줘"inputs = tokenizer(prompt, return_tensors="pt")outputs = model.generate(**inputs)print(tokenizer.decode(outputs[0]))
3.2 파인튜닝 예시
# LoRA로 자체 도구셋에 파인튜닝from peft import LoraConfig, get_peft_modellora_config = LoraConfig(r=8,lora_alpha=16,target_modules=["q_proj", "v_proj"],lora_dropout=0.05,bias="none",task_type="CAUSAL_LM")model = get_peft_model(model, lora_config)# 이후 자체 도구 호출 데이터로 학습
3.3 에지 기기 배포
Cactus 플랫폼에서는 사전 최적화된 런타임을 제공한다. 안드로이드, iOS, 임베디드 Linux 등 다양한 플랫폼을 지원한다.
4. 성능 분석
4.1 속도 vs 정확도 트레이드오프
Needle은 크기가 작음에도 불구하고 도구 호출 태스크에서 준수한 정확도를 보인다. Gemini 3.1 대비 정확도 손실은 최소화하면서, 속도는 오히려 더 빠를 수 있다.
| 모델 | 크기 | 도구 호출 정확도 | 지연 시간 |
|---|---|---|---|
| Gemini 3.1 | ~405B | 높음 | 높음 |
| Needle | 26M | 중간~높음 | 극히 낮음 |
| 일반 7B 모델 | ~7B | 중간 | 중간 |
4.2 활용 시나리오
• 스마트워치 어시스턴트: 음성 명령 → 도구 호출 → 빠른 응답
• 개인 정보 앱: 금융, 의료 데이터처리적 로컬 AI
• IoT 컨트롤러: 복잡한 reasoning 없이 정해진 도구만 호출하는 태스크
• 오프라인 AI: 네트워크 없는 환경에서의 도구 활용
5. 향후 전망
Needle의 등장은 에지 AI 분야에서 중요한 전환점이 될 수 있다. 특히이하기개 방향으로 발전할 가능성이 크다:
1. 더 작은 모델로의 확장: 26M → 10M 이하로 추가 경량화
2. 다중 도구 호출: 현재는 단일 도구 호출에특화, 멀티스텝 에이전트로 확장
3. 멀티모달 지원: 텍스트 외에 이미지, 음성 도구 호출 지원
4. 특화 도메인 모델: 금융, 의료, 제조업등영역 특화 버전
Cactus가 YC S25 스타트업답게 빠르게 제품을 개선하고 있다는 점도 주목할 만하다. 완전 오픈소스로 공개했기 때문에 커뮤니티 주도 발전도 기대할 수 있다.
요약
Needle은 2,600만 파라미터로 Gemini 3.1 수준의 도구 호출을 에지 기기에서 실현한 모델이다.
핵심 포인트:
• 초경량 Simple Attention Network 아키텍처
• 6,000/1,200 토큰/초의 놀라운 속도
• 맥/PC에서 직접 파인튜닝 가능
• 완전 오픈소스 (GitHub + Hugging Face)
• 에지 AI, 프라이버시 보호, 오프라인 환경에 최적
에이전트 AI를 소형 기기로 확장하고 싶다면, Needle은 지금 가장 주목해야 할 오픈소스 프로젝트다.
📚 출처
• GitHub - cactus-compute/needle
• Hugging Face - Cactus-Compute/needle
• LinkedIn Post by Henry Ndubuaku
📚 출처
'AI 뉴스' 카테고리의 다른 글
| MacBook Neo 리뷰: 우리 모두를 위한 노트북 완벽 가이드 (0) | 2026.05.14 |
|---|---|
| Code w/ Claude 2026 완전 정리 — Claude가 공개한 모든 것들 (0) | 2026.05.14 |
| Show GN: 못친소 대결 BetterThanYou — 얼굴 사진으로 승자를 가리는 Rust CLI 툴 (0) | 2026.05.14 |
| LidGuard: AI 에이전트 작업 중에도 노트북 덮고 내릴 수 있게 해주는 전원 관리 도구 (0) | 2026.05.14 |
| AI가 코드를 작성한다면, 왜 Python을 쓰는가? (0) | 2026.05.14 |