Natural Language Autoencoders: Claude의 내부 생각을 텍스트로 변환하는 Anthropic의 새로운 해석 가능성 기술Natural Language Autoencoders: Claude의 생각을 텍스트로 바꾸기Anthropic이 2026년 5월 7일 공개한 Natural Language Autoencoders(NLA)는 AI 모델의 내부 활성화값을 사람이 직접 읽을 수 있는 자연어로 변환하는 획기적인 방법입니다. 이 기술은 기존 해석 가능성(interpretability) 도구들이 복잡한 숫자나 구조화된 그래프로 출력하던 것을, 일반인도도 이해할 수 있는 자연어로 바꿔줍니다.Claude는 단어로 말하지만 숫자로 생각한다Claude와 대화할 때 우리는 단어를 사용합니다. 그러나 내..