AI 뉴스

고블린은 어디에서 왔나 — ChatGPT '고블린 감염'의 충격적인 원인

노동1호 2026. 5. 2. 03:04

Cover image: ChatGPT's goblin phenomenon — OpenAI Blog

고블린은 어디에서 왔나 — ChatGPT '고블린 감염'의 충격적인 원인

2025년 11월, ChatGPT 사용자들은 이상한 변화를 눈치챘다. AI가 갑자기 "goblin", "gremlin" 같은 생물 비유를 즐겨 쓰기 시작한 것이다. 175%나 증가한 "goblin" 사용. 이 참사가 어디서 시작됐을까? OpenAI는 최근 공식 블로그](/index/where-the-goblins-came-from/)를 통해 이 사건의 전말을 공개했다.

갑자기 나타난 이상한 말버릇

특정 시점 이후 ChatGPT 답변에서 "little goblin", "gremlin" 같은 표현이 급격히 늘어난 것이다. 일반적인 모델 버그처럼 eval 점수 급락이나 학습 메트릭 이상으로 즉시 알아채기 어려웠다. "goblin 하나쯤이야"라고 생각할 수 있지만, 이것이 전례 없는 기술적발현문제의 신호였다.

2025년 11월 GPT-5.1 출시 후, ChatGPT 내 "goblin" 사용은 175%, "gremlin"은 52% 증가했다. 사용자들이 "AI가 갑자기 친근하게 군다"고 느끼기 시작했고, 안전 연구자들도 이 현상을 검사 대상으로 확인하기 시작했다.

원인: Nerdy Personality의 학습 데이터 오염

OpenAI 내부 분석 결과, 핵심 원인은 ChatGPT의 성격 커스터마이징 기능 중 하나인 'Nerdy personality'였다.

Nerdy personality는 다음과 같이 설계됐다:

"unapologetically nerdy, playful and wise AI mentor" — 진실, 지식, 철학, 과학적 방법, 비판적 사고를 열정적으로 장려하되, pretension을 장난스러운 언어로 낮추도록 요구

문제는 이 Nerdy personality의 학습(RLHF) 과정에서 생물 비유에 높은 보상이 주어졌다는 것이다.

숫자가 말하는 충격적인진실

지표 수치

Nerdy personality가 전체 응답에서 차지하는 비율 2.5%

Nerdy personality가 차지하는 "goblin" 출현 비율 66.7%

Nerdy reward의 positive uplift 발생 비율 76.2%

전체 응답의 고작 2.5%에만 적용된 personality가 "goblin" 출현의 3분의 2를 차지한 것이다.

Reward Signal의 전이 — 가장두이부분

더 충격적인 것은 이 행동이 Nerdy personality가 없는 응답에도 전이됐다는 점이다.

OpenAI는 학습 과정에서 Nerdy prompt가 있는 샘플과 없는 샘플의 출현율을 추적했다. 결과: Nerdy personality 아래에서 goblin·gremlin이 증가할 때, prompt 없는 샘플에서도 거의 같은 상대 비율로 증가했다.

이것이 의미하는 바는 명확하다:
보상은 Nerdy 조건에서만 적용됐지만, RLHF는 학습된 행동이 그 조건 안에만 깔끔하게 머물도록 보장하지 않는다.

한 번 보상받은 style tic은 이후 학습에서 다른 곳으로 퍼지거나 강화될 수 있고, 특히 그런 출력이 SFT(Supervised Fine-Tuning) 또는 preference data에 다시 쓰이면 더 커질 수 있다.

만들어진 피드백 루프
1. Playful style이 보상받음2. 보상받은 예시 일부에 고유한 lexical tic이 포함됨3. Tic이 rollout에서 더 자주 나타남4. Model-generated rollout이 SFT에 사용됨5. 모델이 그 tic을 더 편하게 생성하게 됨
GPT-5.5의 SFT 데이터 검색에서 "goblin"과 "gremlin"이 포함된 데이터 포인트가 대량으로 발견됐다. 추가 조사에서 raccoon, troll, ogre, pigeon 같은 다른 이상한 생물 단어도 tic word로 확인됐다.

해결 과정: 세 단계에 걸친 대응

1단계: Nerdy Personality 폐기 (GPT-5.4, 2026년 3월)

GPT-5.4 출시 후 Nerdy personality가 공식적으로 retired 처리됐다. 동시에 학습에서 goblin-affine reward signal을 제거하고, creature-word가 포함된 학습 데이터를 필터링하는 조치가 적용됐다.

2단계: Developer Prompt Instruction 추가 (GPT-5.5)

하지만 GPT-5.5는 goblin의 근본 원인을 찾기 전에 학습을 시작했기 때문에, Codex 테스트에서 OpenAI 직원들이 여전히 goblin 선호를 즉시 알아챘다.

완화를 위해 developer-prompt instruction이 추가됐다:

"Never talk about goblins, gremlins, raccoons, trolls, ogres, pigeons, or other animals or creatures unless it is absolutely and unambiguously relevant to the user's query."

3단계: 공개 보고서 발행

OpenAI는 이 경험을 사례 연구로 공식 공개했다. 이 사건이 중요한 이유는 단순한 버그 수정이 아니라, RLHF reward signal이 모델 행동을 예상 밖으로 형성할 수 있음을 직접적으로 보여주는실증였기 때문이다.

이 사건이 시사하는 바

1. RLHF의 예상 밖의 일반화

이 사건은 reinforcement learning에서 보상이 전이되는 경로에 대한 근본적인 문제를 제기한다. 특정 조건에서 보상받은 행동이 다른 조건에서도 출현할 수 있으며, 이것이 SFT나 preference data를 통해 증폭될 수 있다.

2. "Small quirk"의 위험성

"답변 하나에 goblin이 등장하는 게 무슨 대문제일까?" —초기에는 이렇게 생각할 수 있다. 하지만 이러한 작은 lexical tic이 학습 데이터에 녹아들면, 시간이 지나며 증폭되고 일반화된다.Eval 점수나 학습 메트릭만으로는 이러한미묘한 변화를 즉각 알아채기 어렵다.

3. Personality 커스터마이제의 Blind Spot

AI 성격을커스터마이징 자체가 사용자 경험 향상에 도움이 될 수 있지만, 각 personality의 학습 데이터Reward signal이 다른 personality로 전이되는 경로는 충분히 테스트되지 않았을 수 있다.

4. 모델 행동 감시 체계의중요성

OpenAI가 이번에 공개한 감사 도구와 접근 방식은 향후 비정상적 모델 행동의 근본 원인을 빠르게 파악하는 데 활용될 것이다. "goblin 하나"가 아니라, reward signal의Generalization이라는근본적 문제를 해결하는 계기가 됐다.

ChatGPT Nerdy Personality와 Goblin 현상 — 타임라인 정리

시점 이벤트

2025년 11월 GPT-5.1 출시 — Nerdy personality 도입, goblin 사용 175% 증가

2026년 초 Nerdy personality goblin 전이 현상 확대

2026년 3월 GPT-5.4 출시 — Nerdy personality retired, goblin-affine reward signal 제거

2026년 4월 GPT-5.5 출시 — developer-prompt instruction으로 명시적 차단

2026년 4월 OpenAI 공식 블로그에서 사례 공개

결론: 고블린은 어디에서 왔나

"고블린"은 학습 데이터에서 왔다. 더 정확히 말하면, 고블린은 특정 personality의 reward signal에서 왔고, 그것이 예상 밖의 경로로 일반화된 결과다.

이 사건은 LLM 개발에서 가장 중요한 교훈 하나를 남긴다:

모델의 작은 행동 하나가 오늘은 innocents quirk으로 보일 수 있지만, 내일은 학습 데이터의 일부가 되어 전체 모델 행동에 영향을 미칠 수 있다.

AI 시스템을 개발할 때, 우리는 종종 "동케바이면"(작동하면 그만)라는 마인드로 배포한다. 하지만 고블린 사례가 보여주듯, 작동하는 것과 올바르게 작동하는 것 사이에는 여전히 깊은 gap이 존재한다.

📚 출처

• Where the goblins came from - OpenAI

• Gizmodo: The Goblins Came Back to Haunt Us

• Business Insider: OpenAI explains its goblin and gremlin infestation

• NBC News: OpenAI blames 'nerdy personality' for ChatGPT's obsession with goblins

• CNET: ChatGPT Is Weirdly Obsessed With Goblins

tags: AI, LLM, ChatGPT, GPT-5, OpenAI, RLHF, Alignment, Personality, Bug-Fix

지표	수치
Nerdy personality가 전체 응답에서 차지하는 비율	2.5%
Nerdy personality가 차지하는 "goblin" 출현 비율	66.7%
Nerdy reward의 positive uplift 발생 비율	76.2%

시점	이벤트
2025년 11월	GPT-5.1 출시 — Nerdy personality 도입, goblin 사용 175% 증가
2026년 초	Nerdy personality goblin 전이 현상 확대
2026년 3월	GPT-5.4 출시 — Nerdy personality retired, goblin-affine reward signal 제거
2026년 4월	GPT-5.5 출시 — developer-prompt instruction으로 명시적 차단
2026년 4월	OpenAI 공식 블로그에서 사례 공개

'AI 뉴스' 카테고리의 다른 글

Claude Code가 커밋에 'OpenClaw' 언급 시 요청 거부·추가 요금 부과 (0)	2026.05.02
Zig 프로젝트의 anti-AI 기여 정책에 대한 근거 완벽 가이드 (0)	2026.05.02
spawn-agent: 로컬 코딩 에이전트를 Vercel AI SDK 모델처럼 다루는 어댑터 완벽 가이드 (5)	2026.05.02
Vibe-Trading – 자연어 기반 트레이딩 전략 생성·백테스트·실행 AI 도구 완벽 가이드 (0)	2026.05.02
AI가 디자인을 대신하는 시대, 왜 디자인 시스템이 더 중요해질까? (0)	2026.05.02

현재글고블린은 어디에서 왔나 — ChatGPT '고블린 감염'의 충격적인 원인

ICBM의 Dev 블로그

Ai, 에이전트, AI 에이전트, 인공지능, 보안, Anthropic, devops, 오픈소스, Cursor, AI 코딩, gemini, 자동화, Claude, Git, claude code, 개발도구, OpenAI, llm, AI에이전트, ChatGPT,

Today :
Yesterday :

일	월	화	수	목	금	토
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

ICBM의 Dev 블로그