LLM의 지난 6개월을 5분 만에 보기

2025년 11월, LLM 업계에 하나의 변곡점이 생겼다. 코딩 에이전트가 "종종 작동"하는 수준에서 "대체로 작동"하는 수준으로 전환한 순간이다. 그리고 6개월이 지난 지금, 그 변화는 어디까지 이어졌을까.
펠리컨 자전거 테스트: 이상하지만 유용한 벤치마크
AI 모델의 성능을 비교할 때 researchers는 다양한 벤치마크를 사용한다. 그중 하나가 바로 "자전거를 타는 펠리컨" SVG 생성 테스트다. 펠리컨은 그리기 어렵고, 자전거도 그리기 어렵고, 펠리컨이 자전거를 탈 수 있다는 것은 어떤 AI 연구소도 의도하지 않았을 것이다. 그래서 이 테스트는 모델의 상식 추론을 간접적으로 파악할 수 있는 지표가 된다.
2025년 11월: 프런티어 모델 경쟁
2025년 9월 29일 Claude Sonnet 4.5가 공개된 뒤, 최고 성능 자리를 두고 세 대형 제공자가 치열한 경쟁을 벌였다.
| 모델 | 공개 시기 | 특징 |
|---|---|---|
| GPT-5.1 | 2025년 10월 | Codex와 결합하여 코딩 능력 향상 |
| Gemini 3 | 2025년 10월 | 펠리컨 테스트에서 최고 성능 |
| Claude Opus 4.5 | 2025년 9월 | 이후 몇 달간 선두 유지 |
Gemini 3가 펠리컨 그림에서 가장 좋은 결과를 냈지만, 이 테스트만으로 모델 전체를 평가할 수는 없다. 각 모델은 서로 다른 강점을 가지고 있기 때문이다.
코딩 에이전트의 품질 장벽 돌파
11월의 진짜 변화는 코딩 에이전트의 품질 향상에 있었다. OpenAI와 Anthropic은 2025년 대부분을 검증 가능한 보상 기반 강화학습에 투입했다. 이 기술은 Codex와 Claude Code 같은 에이전트 하네스와 결합될 때 두드러진다.
결과적으로 코딩 에이전트가 다음 수준으로 올라갔다.
• "종종 작동" → "대체로 작동"
• 실제 작업을 맡길 수 있는 일상 도구 수준 도달
• 사용자가 어리석은 실수 수정에 쓰는 시간 대폭 감소
12월~1월: 휴가철 실험과 과열
모델과 코딩 에이전트의 가능성에 대한 기대가 폭발적으로 늘어났다. 특히 micro-javascript 같은 실험적 프로젝트가 등장했지만, 버그와 속도, 안전성 문제로 실제 필요성은 제한적이었다.
야심 찬 프로젝트들도 만들어졌지만 조용히 사라진 경우가 대부분이다. 이는 새로운 기술에 대한 초기 열풍이 식어가는 자연스러운 과정이다.
2월: Gemini 3.1 Pro와 펠리ican 확장
Google은 Gemini 3.1 Pro를 공개했다. 이 모델은 자전거를 탄 펠리컨을 매우 잘 그렸을 뿐 아니라, 바구니 속 물고기까지 포함시켰다. Jeff Dean이 공개한 애니메이션에는 penny-farthing을 탄 개구리, 작은 차를 운전하는 기린, 롤러스케이트를 탄 타조 등도 포함되어 있다.
AI 연구소들이 이러한 재미있는 과제에도 관심을 기울이기 시작했다.
4월: 오픈 가중치 모델의
오픈 가중치 모델들이 프런티어 모델에 도전하기 시작했다.
Gemma 4
• 미국 회사 중 가장 능력 있는 오픈 가중치 모델
• Google's 공개
GLM-5.1
• 1.5TB 오픈 가중치 모델
• 실행할 하드웨어를 감당할 수 있다면 매우 효과적
• 펠리컨 테스트에서 애니메이션 시도 시 자전거가 위쪽으로 튀고 왜곡되는 문제 발생

Qwen 3.6-35B-A3B
• 20.9GB 오픈 가중치 모델
• 노트북에서 실행 가능
• Claude Opus 4.7보다 나은 펠리컨 결과
노트북에서 실행 가능한 모델들은 프런티어 모델보다 훨씬 약하지만, 기대를 크게 웃도는 결과를 내기 시작했다.
개인 AI 비서 열풍: OpenClaw
11월 말 첫 커밋이 올라온 Warelay 저장소가 2월 OpenClaw라는 이름으로 큰 관심을 받았다. 개인 AI 비서 개념의 프로젝트이며, Silicon Valley에서는 Mac Mini를 구매해 Claw를 실행하는 사람들이 늘어나면서 Mac Mini가 품절되기 시작했다.
Drew Breunig은 이를 새로운 디지털 반려동물에 비유하며, Mac Mini가 Claw를 위한 완벽한 수조라고 농담했다.
개발자 관점: 실제로와ㅉ타카
실제 개발자들의 경험담을 보면 평가가 엇갈린다. 긍정적인 경험과 그렇지 않은 경험이 공존한다.
좋은 경험을 한 개발자들의 공통점은 다음과 같다.
• 설계 문서에 시간을 충분히 투자
• 작업을 구체적이고 제한된 단계로 쪼갬
• Claude를 코딩에, Codex를 설계와 코드 리뷰에 활용
• 각 단계마다 테스트 커버리지를 확인
코드 한 줄 직접 쓰지 않고도 도구와 라이브러리를 구현한 사례도 있다. 다만 보편적인 것은 아니며, 쉽게 테스트할 수 있고 달성하려는 목표를 확실히 이해하지만 정확한 방법까지는 정해지지 않은 작업에서 인상적인 결과를 보였다.
6개월오루
지난 6개월의 핵심 변화는 두 가지로 압축된다.
1. 코딩 에이전트가 실제 일상 작업에 쓸 수 있을 만큼 좋아졌다
2. 노트북에서 실행 가능한 모델들이 기대를 크게 뛰어넘기 시작했다
"자전거를 탄 펠리컨"이 유용한 벤치마크로서의 한계를 넘어섰다는 점도 놀랍다. 이제 이 테스트만으로 모델의 전체적인 능력을 평가하기는 어렵다.
앞으로 주목할 점
LLM의 발전은 계속된다. 다음 몇 가지를 주시해야 한다.
• 더 강력한 코딩 에이전트의 등장
• 프런티어 모델과 오픈 가중치 모델 간 격차 축소
• 개인용 AI 비서의 일상화
• 모델들이 "충분히 좋아지는" 임계값 도달 후 새로운 기능
변곡점이 실제로 있었는지는 계속 논쟁의 대상이다. 하지만 분명한 것은 개발자들의 작업 방식이 크게 바뀌었다는 것이다. 이제 남은 것은 각자가 이 도구를 더 잘 적용하는 방법을 찾아가는 일이다.
📚 출처
'AI 뉴스' 카테고리의 다른 글
| OpenShorts - 무료 오픈소스 클립 생성기 & AI UGC 비디오 제작 도구 완벽 가이드 (1) | 2026.05.21 |
|---|---|
| LLM의 지난 6개월, 펠리컨이 자전거 타는 모습으로 설명하다 (0) | 2026.05.21 |
| 4개 AI에게 라디오 방송국을 반년간 운영시킨 결과, 놀라운 성격 차이가 나타났다 (0) | 2026.05.21 |
| Andrej Karpathy, Anthropic 합류 — Claude Pre-training 팀으로 (0) | 2026.05.21 |
| Cursor Composer 2.5, Cursor 내 가장 많이 선택받는 모델로 등극 — 10x 사용량 보너스 (0) | 2026.05.21 |