Show GN: Claude Code, Codex 스킬 평가용 rubric evaluator 실전 가이드
2026년 6월, Claude Code와 Codex가 LLM 코딩 워크플로우의 표준으로 자리 잡으면서 "스킬"이라는 단위가 핵심 자산이 됐습니다. 한 사람이 한 달에 두세 개씩 새 스킬을 등록하는 팀도 흔합니다. 그런데 직접 만든 스킬이 정말 잘 작동하는지, 불필요한 추상화만 추가한 건 아닌지 판단하기 어렵습니다. 토스 기술 블로그의 "Skill 품질 관리를 위한 Rubric 설계와 시스템 구현" 글에서 출발한 halfmoon-mind의 rubric-evaluator는 이 질문에 정량적으로 답하는 도구입니다.

rubric-evaluator가 필요한 순간
LLM 스킬은 prompt보다 구조적인 약속입니다. SKILL.md 한 파일에 의도가 결정되고, 모델은 그 약속을 그대로 따릅니다. 그래서 "느낌상 좋다"는 평가는 의미가 없습니다. rubric-evaluator는 6개 섹션 30개 항목의 채점표를 들이대고, 결정론적으로 S/A/B/C/F 등급을 매깁니다. 눈으로 본 게 아니라 점수로 본다는 점이 운영 환경에서 중요합니다.
설치 한 줄로 끝
Claude Code에서는 마켓플레이스 추가 후 플러그인 설치로 끝납니다.
/plugin marketplace add halfmoon-mind/rubric-evaluator/plugin install rubric-evaluator@rubric-evaluator
Codex도 같은 단일 소스에서 배포됩니다. 로컬 체크아웃에서 시도하려면 claude --plugin-dir ./plugins/rubric-evaluator로 한 번만 실행해 보면 됩니다. Codex는 새 스레드를 시작한 뒤 $rubric-evaluator 핸들을 붙여 호출합니다.
사용법은 자연어 한 줄
별도 CLI를 외울 필요가 없습니다. "Grade the skill directory at ./my-skill", "Audit the SKILL.md in ./plugins/foo" 같은 영어 프롬프트만 던지면 됩니다. Codex에서는 "Use $rubric-evaluator to grade ./my-skill"처럼 핸들을 prefix로 붙여 활성화합니다. 스킬은 grade, audit, review, dogfood, improve 같은 의도 키워드에 자동 트리거됩니다.
채점 등급의 의미

등급 산식은 단순합니다. BLOCKER가 한 건 이상이면 무조건 F입니다. 그 외에는 MAJOR 누락 개수로 S, A, B, C가 갈립니다. MAJOR가 0개면 S, 1~2개면 A, 3~4개면 B, 5개 이상이면 C입니다. MINOR는 점수에 반영되지 않는 권고 사항입니다. 이 구조 덕분에 운영자는 "왜 F인지", "왜 B인지"를 항목 단위로 추적할 수 있습니다. 한 줄 짜리 코드 리뷰 코멘트 대신, 30개 항목의 정량 리포트가 따라온다는 점이 가장 큰 차이입니다.
번들 예제로 즉시 검증
저장소에는 tests/rubric-evaluator/fixtures/clean과 tests/rubric-evaluator/fixtures/secret-leak 두 개의 픽스처가 들어 있습니다. clean은 양식에 맞는 스킬로 S를 받고, secret-leak은 안전 BLOCKER를 걸어 F를 받습니다. 새 스킬을 평가하기 전에 이 두 픽스처로 도구 자체가 정상 작동하는지 먼저 확인하는 습관이 좋습니다. 도구가 틀리면 채점 결과도 틀리니까요. 픽스처가 정상이면 도구도 정상이라고 가정해도 좋습니다.
운영자용 가드레일과 결론
2026년 6월 현재 LLM 스킬은 매일 늘어나는 사내 자산이고, 사람의 코드 리뷰만으로 품질을 유지하기엔 너무 빠르게 변합니다. rubric-evaluator는 "내 스킬이 지금 S인가"를 5초 만에 알려 주는 진단 도구입니다. 자체 평가에 의존하던 워크플로우를 30개 항목의 정량 점수로 전환하고 싶다면, 토스 기술 블로그 글과 함께 이 저장소로 시작하는 것이 가장 빠른 경로입니다. 새 스킬을 발행하기 전, 그리고 주기적으로 기존 스킬을 점검할 때 같은 명령으로 일관된 채점을 받게 됩니다.
체커는 의존성이 없는 stdlib 전용 Python 스크립트라서, 별도 설치 단계 없이 python3 -m unittest discover -s tests/rubric-evaluator -p "test_*.py" 한 줄로 테스트 스위트를 돌릴 수 있습니다. 31개의 커밋과 두 개의 릴리스(v0.1.0, v0.1.1) 사이에서 점진적으로 항목이 추가되어 왔고, 토스 기술 블로그의 rubric 설계를 그대로 따릅니다. 같은 번들이 Claude Code와 Codex 양쪽에 한 소스에서 배포된다는 점도 운영 부담을 줄여 줍니다.
운영자 관점에서 권장 흐름은 짧습니다. 사내 스킬 카탈로그에 새 스킬을 올리기 전, 같은 디렉토리에서 grade ./my-skill을 한 번 돌려 S/A/B/C/F 등급을 확인합니다. B 등급이면 항목별 리포트가 어느 줄을 고쳐야 하는지 알려 주므로, 그 줄만 고치고 다시 돌립니다. 주기 점검은 분기 1회면 충분합니다. 사람의 코드 리뷰 회의록에 "rubric 점수 A 이상"을 한 줄 첨부하는 것만으로 스킬 품질이 자동으로 누적 관리됩니다. 토스가 공개한 rubric과 동일 기준이므로 팀 외부 협업 시에도 같은 언어로 품질을 논할 수 있다는 점이 가장 큰 장점입니다.
마지막으로, 도구를 처음 도입할 때 흔히 빠지는 함정이 있습니다. 첫 평가가 B나 C로 나오는 걸 보고 도구 자체를 의심하는 경우가 있는데, 그 시점에서 도구는 옳고 우리 스킬이 부족한 것입니다. 항목을 한 줄씩 줄여가며 S에 도달하는 과정 자체가 품질 향상의 기록이 됩니다. rubric-evaluator는 "내 스킬이 S인가"를 5초 만에 알려 주는 진단 도구이면서, 동시에 "내 스킬을 S로 끌어올리는 법"을 알려 주는 학습 도구입니다. 2026년 LLM 스킬 운영의 표준 가드레일로 자리 잡을 가능성이 높습니다.
'자동화&툴 리뷰' 카테고리의 다른 글
| SlopGuard – AI 슬롭 PR/이슈를 격리하는 GitHub 앱 실전 가이드 (0) | 2026.06.12 |
|---|---|
| HTML 우선 사이트를 구축해 하룻밤 사이 사용자를 두 배로 늘린 방법 (0) | 2026.06.12 |
| Microsoft 오픈소스 도구 해킹 사건: AI 개발자가 코드를 설치하기 전 알아야 할 것들 (0) | 2026.06.11 |
| apple/container의 Container Machine — macOS에서 Linux 환경을 macOS처럼 쓰는 법 (0) | 2026.06.10 |
| AI가 둔화하고 있다 — 컴퓨트 매출이 안 잡히면 데이터센터는 누가 살리나 (0) | 2026.06.10 |