Garry Tan의 Skillify — AI 에이전트가 실수에서 배우는 방법, 10단계 체크리스트로 풀어보다

AI 뉴스

Garry Tan의 Skillify — AI 에이전트가 실수에서 배우는 방법, 10단계 체크리스트로 풀어보다

노동1호 2026. 4. 23. 23:04

Garry Tan의 Skillify 방법론: AI 에이전트의 실패를 영구적 인프라 자산으로 전환하는 10단계 체크리스트

Y Combinator CEO인 Garry Tan이 AI 에이전트의 실패를 어떻게 "영구적 구조 수정"으로 바꾸는지에 대한 방법론을 공개했습니다. 그가 제안한 Skillify는 단순한 프롬프트 엔지니어링이 아닙니다. AI 에이전트가 실수를 하면, 그 실수를 체계적으로 코드와 문서로 변환하여 다음에는 같은 실수를 하지 않도록 만드는 엔지니어링 접근법입니다. 2026년 3월 Claude Code 소스코드 유출 사건(51만 2천줄)을 계기로 이 방법론은 더욱 주목받고 있으며, 탄의 X 게시물은 백만 조회수를 돌파했습니다.

"Thin Harness, Fat Skills" — 왜 모델 크기가 아니라 아키텍처인가

Garry Tan이 "Thin Harness, Fat Skills"라는 프레임워크에서 핵심으로 주장하는 것은 이겁니다: AI 에이전트의 10~100배 생산성 차이는 모델의 스케일이 아니라 아키텍처에서 온다. 스티브 예기(Steve Yegge)가 "AI 코딩 에이전트를 사용하는 사람이 Cursor 채팅만 쓰는 사람보다 10~100배 생산적이다"라고 말한 것에 대해, 탄은 그 격차의 원인을 5가지 개념으로 설명합니다.

하네스(Harness)는 모델을 실행하는 프로그램을 의미합니다. 탄은 하네스가 단 4가지 역할만 해야 한다고 주장합니다: 모델 루프 실행, 파일 읽기/쓰기, 컨텍스트 관리, 안전 강제. 반면 "Fat Harness" — 40개 이상의 툴 정의가 컨텍스트 윈도우 절반을 차지하거나, 2~5초의 MCP 왕복 시간을 가진 God-tool — 를 강하게 반대합니다. 실제로 Playwright CLI는 브라우저 작업을 100ms에 수행하지만, Chrome MCP는 스크린샷-찾기-클릭-대기-읽기를 15초에 수행합니다. 75배의 성능 차이입니다.

설계 원칙은 명확합니다: 지능은 위로 스킬에, 실행은 아래로 결정론적 툴에, 중간은 최대한 얇게. 그리고 Skillify는 바로 이 "Fat Skills" 부분을 구체적으로 어떻게 구축할지를 정의하는 10단계 체크리스트입니다.

Skillify 10단계 체크리스트: 에이전트의 실패를 인프라로

"Agent failures become infrastructure assets when you systematically codify them." — Garry Tan

Skillify의 핵심은 AI 에이전트가 반복적으로 실패하는 상황을 분석하고, 그 해결책을 체계적인 스킬 파일로 변환하는 것입니다. 탄의 10단계 체크리스트는 다음과 같습니다:

단계	구성요소	가중치	목적
1	SKILL.md	15%	사람과 AI 사이의 계약서
2	결정론적 코드	10%	프롬프트가 아닌 스크립트
3	단위 테스트	10%	핵심 로직 검증
4	통합 테스트	10%	엔드투엔드 워크플로우
5	LLM 평가	10%	출력 품질 평가
6	Resolver	15%	의도 라우팅 (AGENTS.md)
7	Resolver 평가	5%	트리거 테스트
8	Check Resolvable	10%	DRY 감사 + 라우팅 검증
9	E2E 테스트	10%	스모크 테스트
10	Brain Filing	5%	레퍼런스 및 문서화

각 단계의 의미를 살펴보면, 이것은 단순한 "좋은 프롬프트 작성법"이 아닙니다. 소프트웨어 엔지니어링의 모범 사례를 AI 에이전트 스킬 구축에 완전히 적용한 것입니다.

핵심 아키텍처: 5가지 개념의 실체

Skillify는 "Thin Harness, Fat Skills" 프레임워크의 5가지 핵심 개념 위에 구축됩니다:

1. 스킬 파일 (Skill Files)

탄은 스킬 파일을 "마크다운으로 작성된 재사용 가능한 프로그램"으로 정의합니다. 이는 고정된 답이 아니라 판단의 프로세스를 설명합니다. 같은 /investigate 스킬에 안전 과학자와 250만 통의 이메일을 넣으면 의료 조사가 되고, 캠페인 자금 데이터를 넣으면 정치 기부 추적기가 됩니다. 탄은 이것이 프롬프트 엔지니어링이 아니라 마크다운을 프로그래밍 언어로 사용하는 소프트웨어 설계라고 말합니다.

2. 얇은 하네스 (Thin Harness)

하네스는 모델을 실행하는 프로그램으로, 오직 모델 루프, 파일 I/O, 컨텍스트 관리, 안전 강제만 담당해야 합니다. 지능은 위로 스킬에, 실행은 아래로 결정론적 툴에 밀어 넣고, 중간은 최대한 얇게 유지하는 것이 핵심입니다.

3. 리졸버 (Resolvers)

리졸버는 컨텍스트를 위한 라우팅 테이블입니다. 태스크 타입 X가 나타나면 문서 Y를 먼저 로드합니다. 예를 들어 개발자가 프롬프트 파일을 수정하면, 리졸버가 자동으로 평가 문서를 로드합니다. 탄은 자신의 CLAUDE.md가 2만 줄까지 부풀어 올랐다가 모델 주의력이 노이즈 속에서 저하되는 것을 경험한 후, 200줄의 포인터로 줄였다고 고백합니다.

4. 잠재적 vs 결정론적 (Latent vs Deterministic)

시스템의 모든 단계는 잠재 공간(모델이 판단) 또는 결정론적 공간(프로그램이 실행) 중 하나입니다. 모델은 8명의 인간 관계를 고려해 저녁 자리 배치를 할 수 있지만, 800명을 배치하려 하면 그럴듯해 보이지만 완전히 틀린 결과를 냅니다. 탄의 YC 시스템에서 올바른 접근은: 모델이 테마를 고안(잠재적)하고, 결정론적 알고리즘이 좌석을 할당(결정론적)하는 것입니다.

5. 다이어리제이션 (Diarization)

모델이 주제에 관한 모든 자료를 읽고 1페이지짜리 구조화된 프로필을 출력하는 과정입니다. 창업자가 "AI 에이전트용 Datadog"을 만든다고 주장하지만, 실제 커밋의 80%가 빌링 모듈에 있다면 — 모델이 GitHub 커밋 히스토리, 애플리케이션, 어드바이저 트랜스크립트를 동시에 읽고 이 불일치를 발견합니다. 탄은 이것이 SQL 쿼리도, RAG 파이프라인도 해낼 수 없다고 명시합니다.

실제 구현: gstack과 Skillify Auditor

Garry Tan은 이 방법론을 직접 구현한 gstack이라는 오픈소스 프로젝트를 공개했습니다. Claude Code, Codex CLI, Cursor, Factory Droid를 위한 31개 슬래시 커맨드 스킬로 구성된 "소프트웨어 팩토리"입니다. 탄은 YC를 풀타임으로 운영하면서 주당 파트타임으로 60일 동안 60만 줄 이상의 프로덕션 코드를 작성했습니다. 하루 1~2만 줄, 35% 테스트 커버리지를 유지한 것입니다.

한편 커뮤니티에서는 Skillify Auditor라는 도구도 등장했습니다. 탄의 10단계 체크리스트를 자동화한 최초의 자가 감사 도구로, Andrej Karpathy의 AI 엔지니어링 4원칙도 통합했습니다:

Think Before Acting — 먼저 감사, 나중에 수정
Simplicity First — 투기적 추상화 없이
Surgical Changes — 꼭 필요한 것만 수정
Goal-Driven Execution — 검증 가능하고 측정 가능한 결과

Skillify Auditor는 100점 만점의 평가 시스템을 사용합니다: 90~100점은 프로덕션 등급, 80~89점은 견고, 60~79점은 기능적이지만 취약, 60점 미만은 아직 실험 단계입니다. 특히 이 도구는 스스로 감사하는 자가 감사(self-audit) 기능까지 갖추고 있습니다.

Claude Code에 내장된 Skillify

2026년 3월 31일 Claude Code 소스코드가 유출되면서, 내장된 Skillify 기능이 공개되었습니다. Claude Code의 Skillify는 4단계 인터뷰 프로토콜로 작동합니다:

프로세스 식별 — 사용자가 캡처할 반복 가능한 프로세스 정의
명확화 단계 — 트리거 조건, 작업 단계, 도구, 성공 기준, 엣지 케이스 확인
범위 확인 — 이해 요약 후 사용자가 범위 검증
아티팩트 생성 — 최종 SKILL.md 파일 작성

생성된 SKILL.md는 YAML 프론트매터가 포함된 마크다운 파일로, Claude Code의 스킬 디스커버리 시스템이 자동으로 스캔하여 즉시 사용 가능하게 만듭니다. 모든 스킬은 시스템의 영구적 업그레이드가 됩니다.

개발자를 위한 실전 적용 팁

Skillify 방법론을 실제 프로젝트에 적용하려면 다음을 고려하세요:

1. 실패 로그를 스킬로 변환하세요. AI 에이전트가 반복적으로 실패하는 패턴을 관찰하고, 그 해결책을 SKILL.md 파일로 문서화합니다. "이 스크립트는 화요일에 작동했어"라는 파일 이름이 아니라, 구조화된 계약서를 작성하세요.

2. 하네스를 얇게 유지하세요. 컨텍스트 윈도우의 절반을 툴 정의가 차지하지 않도록 합니다. 지능은 스킬로, 실행은 결정론적 스크립트로 분리하세요.

3. 결정론적 코드를 우선하세요. 프롬프트로 해결할 수 있는 것도 스크립트로 작성하세요. 모델이 판단해야 할 것과 프로그램이 실행해야 할 것의 경계를 명확히 하세요.

4. 테스트를 작성하세요. 단위 테스트, 통합 테스트, E2E 테스트, LLM 평가까지. 스킬이 "작동하는 것 같다"에서 "검증된 동작"으로 격상됩니다.

5. Resolver로 컨텍스트를 관리하세요. CLAUDE.md나 시스템 프롬프트가 수만 줄로 부풀어지지 않도록, 인덱스-포인터 구조를 사용하세요.

전망: AI 에이전트 엔지니어링의 미래

Garry Tan의 Skillify 방법론은 AI 에이전트가 단순한 채팅 도구를 넘어 진정한 엔지니어링 시스템으로 발전하는 방향을 제시합니다. 핵심 통찰은 명확합니다: 생산성의 차이는 모델이 아니라 아키텍처에서 온다. 모델이 더 똑똑해질수록 스킬의 가치는 더욱 커집니다. 결정론적 단계는 안정적으로 유지되고, 모델 판단은 향상됩니다.

Forbes가 "하루 1만 줄을 작성하는 YC 총수의 간단한 비밀"이라고 보도했고, 한 CTO는 GStack을 "God Mode"라고 표현했습니다. 이 방법론은 앞으로 더 많은 AI 코딩 에이전트 도구(Claude Code, Codex, Cursor Agent 등)의 기본 아키텍처 원칙으로 자리 잡을 가능성이 높습니다.

"The goal isn't perfect code. The goal is code that knows when it's imperfect and tells you how to fix it." — Garry Tan

요약

Garry Tan의 Skillify는 AI 에이전트의 실패를 체계적으로 인프라 자산으로 변환하는 10단계 엔지니어링 방법론입니다. "Thin Harness, Fat Skills" 아키텍처 원칙 아래, 스킬 파일, 리졸버, 잠재/결정론적 분리, 다이어리제이션의 5가지 핵심 개념을 구현합니다. gstack, Claude Code 내장 Skillify, Skillify Auditor 등의 실제 도구로 이미 검증되었으며, AI 에이전트 엔지니어링의 표준 방법론으로 자리 잡고 있습니다. 모델 스케일이 아니라 아키텍처가 생산성의 핵심이라는 점은 모든 AI 개발자가 기억해야 할 통찰입니다.

'AI 뉴스' 카테고리의 다른 글

GStack: Y Combinator CEO 가 만든 AI 코딩 에이전트 프레임워크 (0)	2026.04.24
Anthropic의 Claude Code 장애 포스트모템: 2026 년 4 월 23 일 (0)	2026.04.24
AI 데이터센터 5기가와트 시대: Anthropic-AWS 1,000억 달러 계약이 촉발하는 인프라 혁명 (0)	2026.04.23
카톡 답장 귀찮을 때, 폰 안에서 돌아가는 온디바이스 AI 자동응답 만들기 (0)	2026.04.23
Kimi Vendor Verifier — 오픈소스 모델 추론 정확성 검증의 새로운 패러다임 (0)	2026.04.23

현재글Garry Tan의 Skillify — AI 에이전트가 실수에서 배우는 방법, 10단계 체크리스트로 풀어보다

ICBM의 Dev 블로그

AI에이전트, 오픈소스, 에이전트, Anthropic, 보안, 인공지능, claude code, devops, AI 코딩, Git, Claude, ChatGPT, 개발도구, llm, Ai, gemini, Cursor, AI 에이전트, OpenAI, 자동화,

Today :
Yesterday :

ICBM의 Dev 블로그