Show GN: Gemento — 작은 로컬 LLM의 긴 작업을 외부 상태·도구·역할·루프로 보강하는 실험 하네스

도입
로컬에서 실행되는 작은 LLM(4B 파라미터급별)이 복잡한 다단계 작업을 수행하려면 어떻게 해야 할까? 클라우드 기반 API를 사용하는 것이 아니라, 노트북 한 대에서 API 비용 없이.long workflows를 달성할 수 있는 구조를 탐구한 프로젝트가 있다. 바로 Gemento다.
Gemento는 "gemma + memento"에서 이름을 딴 실험 하네스다. 4B 파라미터의 Gemma 4 E4B 모델을 기반으로, 작업 기억(memory)·도구(tools)·역할(roles)·제어(orchestrator) 4개의 축을 모델 외부로 분리하는 방식으로 긴 작업의 품질을 끌어올릴 수 있는지를 540회 이상의 실험으로 검증하고 있다.
핵심 성과를 먼저 살펴보면:
• 78.1%: 8루프 ABC 오케스트레이션 정확도 (9-task 벤치마크)
• 41.3%: 동일 모델 1루프 solo 정확도 (+44.4pp 차이)
• 59.1%: Gemini 2.5 Flash 1회 호출 정확도 (비교기준)
• $0 per-trial: API 비용위영, 로컬 실행
즉, 동일한 작은 모델이라도 루프 구조와 역할 분리만으로 Cloud AI에 필적하는 성과를 낼 수 있음을 실험적으로 보여주고 있다.
Gemento가 풀려는 문제
필자(저자)가 secall과 tunaFlow를 개발하던 중 마주한 난제가 있었다:
1. 긴 작업의 문맥 소진: 모델의 컨텍스트 윈도우가유한하면 길고 복잡한 작업에서 정보가 유실된다
2. 계산 능력 부족: 4B 모델은 복잡한 수학 연산에서 명백한 한계를 보인다
3. 자기 검증 실패: 단일 에이전트가 자신의 실수를 스스로 찾아내는 것은 거의 불가능하다
4. 작업 간 지속성 부재: 세션이 종료되면 모든 작업 상태가 사라진다
기존 접근법은 RAG(Retrieval-Augmented Generation)로 컨텍스트를 늘리거나, 더 큰 모델로 전환하는 것이었다. Gemento는 모델 자체는 그대로 두고 구조를 외부로 빼낸다는 다른 관점을 취한다.
4축 외부화 아키텍처
Gemento는 LLM 인지의 4가지 차원을 모델 바깥으로 분리한다:
1. Tattoo — 작업 기억 (Working Memory)
작업 중 생성된 주장(clams), 증거(evidence), 현재 상태(status)를 구조화된 JSON으로 유지한다. 각 루프마다 이 상태가 모델에 주입되어, 모델이 이전 작업을 기억하지 못하더라도 데이터베이스에서 검색할 수 있다.
테트슈 작성 → JSON 상태 저장 → 다음 루프에서 상태 로드 → …
2. Tools — 외부 계산 (Computation)
수학 계산(calculator), 선형대수(linalg), 선형 계획법(linprog) 등을 OpenAI 호환 function calling 구조로 제공한다. Gemma 4 E4B의 계산 능력을 외부 도구로 보완한다.
| 도구 | بدون 도구 | 도구 사용 | 개선 |
|---|---|---|---|
| math-04 정확도 | 0% | 80% | +18.3pp |
3. Roles — 자기 검증 구조 (Self-Validation)
단일 모델이 자신의 실수를 자가 발견하기 어렵다는 것에 주목했다. 대신 세 가지 역할로 분리한다:
• A (Proposer): 해결책 제안
• B (Critic): 제안에 대한 비판
• C (Judge): 최종 판단
같은 4B 모델을 사용하지만 역할 프롬프트를 분리함으로써 자기 검증 효과를 낸다.
| 실험 | 결과 |
|---|---|
| 자기 검증만 (A만) | 0/15 오류 감지 |
| AB 교차 검증 | 12/15 오류 감지 (80%) |
4. Orchestrator — 종료 제어 (Termination)
작업 종료를 모델 자체에 맡기지 않고, Python의 결정론적 루프가 관리한다:
• 최대 반복 횟수(MAX_CYCLES)
• 단계 전환(phase transition) 조건
• 리소스 예산(resource budget)
주요 실험 결과
H1: 오케스트레이터 외부화 — 다단계 루프의위력
가장 인상적인 결과다. 단일 패스 추론 대비 다단계 루프가 +44.4pp 향상했다:
1루프 Solo: 41.3%8루프 ABC Orchestration: 78.1% (+44.4pp)Gemini 2.5 Flash 1회 호출: 59.1%
다만대가은 명확하다: wall time이 약 20배 증가한다. 그러나 API 비용은 $0이다. 비용과 품질의 트레이드오프에서 로컬 4B + 다단계 루프가 유망함을 보여준다.
H7/H8: 도구 외부화 — 계산의 한계 극복
외부 수학 도구 사용 시:
• math-04 태스크: 0% → 80% (+18.3pp)

• 에러 힌트 + 필수 도구 규칙 적용 시: calculator 사용률 0% → 100%, tool neglect 0%
H9a: 기억 외부화 — 긴 컨텍스트에서의 성과
긴 컨텍스트(20K 토큰) 태스크에서:
Solo (긴 컨텍스트): 0%ABC + Tattoo: 100% (+68.3pp)
단일 모델이 긴 입력을 한 번에 처리하면 실패하지만, 루프를 나누어 Tattoo로 상태를 관리하면 완벽한 성과를 낸다.
H11/H12: 역할 추가의 위치 효과
흥미로운 발견이다:
| 역할 추가 위치 | 방향 | 효과크기 (Cohen's d) |
|---|---|---|
| 사전 단계 (Extractor) | +0.05 | d=+0.32 |
| 사후 단계 (Reducer) | −0.05 | d=−0.32 |
사전 단계에 역할을 추가하면 향상이, 사후 단계에 추가하면 오히려 저하가 나타난다.mirror 방향성. 통계적으로는 유의하지 않지만(n=15, p≈0.2), 모델 구조 설계에서 고려할 점이다.
아키텍처 한계와 주의사항
Gemento 저자 자신이 경고하듯, 이 결과는 단일 모델(Gemma 4 E4B)과 소규모 벤치마크(15 tasks + 10 long-context tasks)에서 나온 것이다:
• cross-model 재현은 아직 계획 단계다
• H4, H10, H11, H12는 통계적으로 유의하지 않다 (n=15, p>0.05)
• "position-effect" 관찰은 확인된 효과데하나쿠, 재현 타겟이다
• $0 API 비용과 20배 시간 비용의 트레이드오프는 벤치마크 특화적이다
4B 모델이 70B 모델을 대체한다는 주장이 아니라, 어떤 구조가 작은 모델에서 끌어낼 수 있는 것을 극대화하는지에 대한 실험 노트다.
실용적 시사점
Gemento의 실험 결과는 로컬 AI 활용에 몇 가지 시사점을 던진다:
1. 역할 분리만으로 자기 검증 가능
Claude, GPT 등에서도 역할 프롬프트를 분리하면 단일 호출보다 품질이 높아질 수 있다. "Proposer → Critic → Judge" 구조를 에이전트 시스템에 적용할 수 있다.
2. Tattoo 방식의 작업 기억
작업 중간 상태를 벡터 DB나 구조화된 JSON으로 분리 저장하면, 긴 작업에서도 문맥 소진 없이 지속할 수 있다. LlamaIndex나 LangChain의 메모리 모듈설계여류사하다.
3. 도구 호출의 필수성
4B 등 소규모 모델에서 계산, 검색, 코드 실행 등의 도구를 분리하면 성능이 크게 향상된다. RAG나 계산 도구를 필수적으로답당시키는 것이 좋다.
4. Orchestrator의 외부화
LLM에 종료 판단을 맡기지 말고, Python 레벨에서 최대 반복, 타임아웃, 단계 전환을 관리하면 예상 가능한 품질을 달성할 수 있다.
향후전망
Stage 5까지 진행된 현재, 다음 단계는:
1. Cross-model 재현: Gemma 외의 모델에서도 동일한 효과가 나는지 검증
2. LLM-as-judge 평가: 현재 키워드 기반 스코어러의 한계를 넘어 LLM 평가자 도입
3. H13 재검토: 검색 도구 관련 실험은 현재 부정적 결과 — iterations 수 재검토 필요
540회 이상의 실험이 축적되어 있는 이 노트는, 로컬 LLM 에이전트 아키텍처를 설계하는 모든 개발자에게 실질적인 reference point가 될 것이다.
요약
Gemento는 작은 모델도 적절한 구조화만으로 복잡한 작업을 수행할 수 있다는 것을 실험적으로 보여주는 프로젝트다.
| 구분 | 내용 |
|---|---|
| 핵심 주제 | 작은 로컬 LLM의 4축 외부화 (기억/도구/역할/제어) |
| 핵심 성과 | 8루프 ABC: 78.1% (Solo 대비 +44.4pp) |
| API 비용 | $0 per-trial |
| 시간 비용 | 약 20배 (단일 호출 대비) |
| 베이스 모델 | Gemma 4 E4B (4B 파라미터) |
| 실험 수 | 540회+, H1~H13 |
| 결론 | 모델 교체 없이 구조 최적화로 성능 향상 가능 |
로컬 AI의 잠재력을 활용하는 또 다른 방법을오탐시테이루 개발자라면, Gemento의 실험 노트는 분명 흥미로운 참고자료가 될 것이다.
📚 출처
• GitHub: hang-in/gemento
• GeekNews: https://news.hada.io/topic?id=29166
📚 출처
'AI 뉴스' 카테고리의 다른 글
| Redis array: 4개월 개발 과정의 짧은 이야기 (0) | 2026.05.06 |
|---|---|
| Understand-Anything — 코드베이스를 인터랙티브 지식 그래프로 변환하는 플러그인 완벽 가이드 (0) | 2026.05.05 |
| Show GN: AI에게 매번 같은 설명을 하지 않기 위해 만든 gc-tree (0) | 2026.05.05 |
| DeepClaude - DeepSeek V4 Pro로 Claude Code 에이전트 루프를 17배 저렴하게 사용 (0) | 2026.05.05 |
| Show GN: CTX: Claude Code 세션 간 메모리 — pip install 또는 /plugin install 로 설치 완벽 가이드 (0) | 2026.05.05 |