LLM의 지난 6개월, 펠리컨이 자전거 타는 모습으로 설명하다

왜 펠리컨인가
AI 연구자 Simon Willison은 특이한 벤치마크 하나로 최근 6개월간 LLM의 변화를 정리했다. 바로 "자전거를 타는 펠리컨" SVG 생성 테스트다. 펠리컨은 그리기 어렵고, 자전거도 그리기 어렵으며, 펠리컨이 자전거를 탈 수 없으며, 어떤 AI 연구소도 이런 과제를 위해 모델을 학습시켰을 가능성이 낮다는 점이 이 테스트의 배경이다. 특정 벤치마크에 최적화된 결과가 아닌, 진짜 모델 능력을 가늠할 수 있는난득적 기준이 된 셈이다.
2025년 11월, 변곡점의 시작
11월 초까지 최고로 인정받던 모델은 9월 29일 공개된 Claude Sonnet 4.5였다. 이후 최고 모델 자리는 GPT-5.1, Gemini 3, GPT-5.1 Codex Max, Claude Opus 4.5 사이에서 빠르게 옮겨 다녔다. Gemini 3가 펠리컨 비교군 중 가장 좋은 그림을 그렸지만, 펠리컨 테스트만으로 모델 전체를 평가할 수는 없었다.
그럼에도 Claude Opus 4.5는 그 뒤 몇 달 동안 선두를 유지한 모델로 평가받았다.
코딩 에이전트가 넘어선 품질 장벽
11월의 진짜 변화는 코딩 에이전트의 품질 향상에 있었다. OpenAI와 Anthropic은 2025년 대부분을 모델이 작성하는 코드 품질을 높이기 위한 검증 가능한 보상 기반 강화학습에 집중했다. 이 개선은 Codex와 Claude Code 같은 에이전트 하네스와 결합될 때 특히 두드러졌다.
핵심은 다음과 같다. 코딩 에이전트가 "종종 작동"하는 수준에서 "대체로 작동"하는 수준으로 한 단계 도약했다. 사용자가 대부분의 시간을 어리석은 실수 수정에 쓰지 않아도 되는, 일상 도구 수준의 코딩 에이전트가 나온 것이다.
노트북에서 실행되는 모델의 기대 초과
4월에는 주목할 만한 오픈 가중치 모델들이 나왔다. Google의 Gemma 4는 미국 회사 기준 가장 능력 있는 오픈 가중치 모델로 평가받았다. 중국 AI 연구소 GLM의 GLM-5.1은 1.5TB 규모의 모델로, 하드웨어를 감당할 수 있다면 매우 효과적이다.
특히 Qwen3.6-35B-A3B는 20.9GB규모적 오픈 가중치 모델로, 노트북에서 실행하면서도 Claude Opus 4.7보다 나은 펠리컨을 그렸다. 프런티어 모델보다 훨씬 약하지만, 기대를 크게 웃도는 결과를 내기 시작한 것이다.
펠리컨 테스트의 한계와 의미

물론 펠리컨 테스트에 대한 비판도 있다. Hacker News 논평 중 하나는 이렇게 지적했다. 이 펠리컨 자전거 테스트가 터무니없는 지표라고들 하지만, 사실 약 3년 전 Microsoft의 초기 GPT 보고서에서 소개됐다는 점을 잘 기억하지 못하는 듯하다. 마케팅 100%, 과학 0%라는 평가도 있다.
그러나 실제로 11월 이후 코딩을 거의 멈추고 AI 에이전트에게 대부분의 코딩을 맡긴 개발자들의증언도 있다. 뼈대는 확실히 만들어 실행되게 하지만, 완성도 있는 애플리케이션과는 거리가 멀다는isoft칙인위opus 4.5는 변곡점이었고 현재의 변화를 만든 유일한 이유라고 주장한다.
개발자에게 남기는 시사점
지난 6개월의 변화를 통해 분명한 것이 하나 있다. 코딩 에이전트는 아직만능이 아니지만, 충분히 강력한 도구가 되었다는 점이다. 문제를 예측하고 함의를 추론하는 능력, 설계 문서를 만들고 아키텍처를 논의하는 능력은 꽤 뛰어나다. 코딩 단계가 되면 대부분 기계적인 과정이고, Sonnet 계열 모델에 넘겨도 결함률이 미미하다.
핵심은 에이전트의 능력이 연속적인 스펙트럼이라는 것이다. 작업 중인 코드베이스의 복잡성에 크게 의존하며,소유인도 아직 일상 업무에서 이 도구를 더 잘 적용하는 방법을 찾아가는 중이다. 모두가 매일 매일 새 모델과 에이전트가 무엇을 할 수 있는지 실험하면서, 진짜로 작동하는 것을 찾는 과정에 있다.
📚 출처
• GeekNews - LLM의 지난 6개월을 5분 만에 보기
• Simon Willison - The last six months in LLMs, illustrated by pelicans on bicycles
📚 출처
'AI 뉴스' 카테고리의 다른 글
| 위계에서 인텔리전스로 — 잭 도시가描绘る AI-native 조직의 새로운 패러다임 (1) | 2026.05.21 |
|---|---|
| OpenShorts - 무료 오픈소스 클립 생성기 & AI UGC 비디오 제작 도구 완벽 가이드 (1) | 2026.05.21 |
| LLM의 지난 6개월을 5분 만에 보기 (0) | 2026.05.21 |
| 4개 AI에게 라디오 방송국을 반년간 운영시킨 결과, 놀라운 성격 차이가 나타났다 (0) | 2026.05.21 |
| Andrej Karpathy, Anthropic 합류 — Claude Pre-training 팀으로 (0) | 2026.05.21 |