GLM-5 대규모 서비스의 레이스 컨디션 디버깅과 스케일링 최적화GLM-5 대규모 서비스에서 발견한 레이스 컨디션 버그 — Coding Agent 추론 인프라의 Scaling Pain 완벽 가이드GLM-5는희소성 MoE 아키텍처, 200K 컨텍스트 윈도우, 에이전트 워크플로를 하나로 결합한 차세대 foundation model이다. 논문 arxiv.org/abs/2602.15763에 따르면 vibe coding에서 agentic engineering으로 패러다임을 전환하기 위해 설계되었다. FriendliAI와 같은 Inference 파트너사 역시 GLM-5의 production-serving이 단순한 compute 문제가 아니라 memory와 scheduling의도전이라며 경고한 바 있다.그러나 실제 ..