Alignment 2

Natural Language Autoencoders: Claude의 생각을 텍스트로 바꾸기

Natural Language Autoencoders: Claude의 내부 생각을 텍스트로 변환하는 Anthropic의 새로운 해석 가능성 기술Natural Language Autoencoders: Claude의 생각을 텍스트로 바꾸기Anthropic이 2026년 5월 7일 공개한 Natural Language Autoencoders(NLA)는 AI 모델의 내부 활성화값을 사람이 직접 읽을 수 있는 자연어로 변환하는 획기적인 방법입니다. 이 기술은 기존 해석 가능성(interpretability) 도구들이 복잡한 숫자나 구조화된 그래프로 출력하던 것을, 일반인도도 이해할 수 있는 자연어로 바꿔줍니다.Claude는 단어로 말하지만 숫자로 생각한다Claude와 대화할 때 우리는 단어를 사용합니다. 그러나 내..

AI 뉴스 2026.05.10

고블린은 어디에서 왔나 — ChatGPT '고블린 감염'의 충격적인 원인

Cover image: ChatGPT's goblin phenomenon — OpenAI Blog고블린은 어디에서 왔나 — ChatGPT '고블린 감염'의 충격적인 원인2025년 11월, ChatGPT 사용자들은 이상한 변화를 눈치챘다. AI가 갑자기 "goblin", "gremlin" 같은 생물 비유를 즐겨 쓰기 시작한 것이다. 175%나 증가한 "goblin" 사용. 이 참사가 어디서 시작됐을까? OpenAI는 최근 공식 블로그](/index/where-the-goblins-came-from/)를 통해 이 사건의 전말을 공개했다.갑자기 나타난 이상한 말버릇특정 시점 이후 ChatGPT 답변에서 "little goblin", "gremlin" 같은 표현이 급격히 늘어난 것이다. 일반적인 모델 버그처럼 ..

AI 뉴스 2026.05.02