AI 뉴스

Qwen3.7-Max: 에이전트 프런티어 완벽 가이드

노동1호 2026. 5. 22. 01:06

Qwen3.7-Max: 에이전트 프런티어

알리바바 클라우드가 새로운 에이전트 중심Флаг십 모델 Qwen3.7-Max를 공개했다. 코딩, 디버깅, 사무 자동화, 수백에서 수천 단계에 걸친 자율 실행을 겨냥한 이 모델은 현재 중국 AI 시장에서 가장 주목받는 제품 중 하나다.

에이전트 시대의 새 기준

Qwen3.7-Max는 단순한 텍스트 생성 모델이 아니다. 에이전트 프런티어를 목표로 설계된 만큼, 외부 도구를 자유자재로 활용하고 장시간 자율 작업을 지속하는 능력이 핵심이다. 개발 환경에서 코드 작성과 디버깅을 동시에 수행하고, 사무에서는 문서 서식 정리와 데이터 분석을 자율적으로 해낸다.

알리바바 클라우드 모델 스튜디오를 통해 곧 공개 API가 제공될 예정이다. Claude Code, OpenClaw, Qwen Code 등 인기 에이전트 프레임워크와도 곧바로 연동할 수 있어 개발자 입장에서 도입 장벽이 낮다.

벤치마크 성능

Qwen3.7-Max는 코딩 에이전트, 범용 에이전트, STEM 추론, 일반 역량, 다국어 영역에서 광범위한 평가를 받았다.

코딩 에이전트 역량

Terminal Bench 2.0-Terminus에서 69.7점을 기록하며 DS-V4-Pro Max의 67.9점을 넘어섰다. SWE-Verified에서는 80.4점으로 Opus-4.6 Max 및 DS-V4-Pro Max와 유사한 수준을 달성했다. 특히 Kernel Bench L3에서는 중앙값 1.98배 속도 향상과 96% 승률을 기록하며 GPU 커널 최적화 역량을 입증했다.

범용 에이전트

MCP-Mark에서 60.8점, MCP-Atlas에서 76.4점을 기록하며 GLM-5.1과 Opus-4.6을 각각 넘어섰다. 사무 자동화 벤치마크 SpreadSheetBench-v1에서는 87.0점을 달성했다.

추론 능력

GPQA Diamond에서 92.4점을 기록해 Opus-4.6의 91.3점을 제쳤다. HLE 41.4점, IMOAnswerBench 90.0점 등 STEM 영역 전반에서 높은 성과를 보이고 있다.

35시간 자율 커널 최적화의 의미

가장 주목할 만한 성과는 미지의 PPU 아키텍처에서한 자율 커널 최적화 실험이다. Qwen3.7-Max는 학습 중 한 번도 만나지 못한 T-Head ZW-M890 PPU가 탑재된 ECS 인스턴스에서 커널을 최적화했다.

사전 프로파일링 데이터나 하드웨어 문서, 예제 커널 없이 시작해 약 35시간 연속 자율 실행 동안 1,158회 도구 호출과 432회 커널 평가를 수행했다. 컴파일 실패 진단, 정합성 버그 수정, 런타임 프로파일링 기반 병목 식별, 커널 아키텍처 재설계를 모두 스스로 해냈다.

결과는 Triton 기준 대비 기하평균 10.0배 속도 향상이었다. 같은 조건에서 GLM 5.1은 7.3배, Kimi K2.6은 5.0배, DeepSeek V4 Pro는 3.3배에 그쳤다. 30시간이 지난 후에도 여전히 의미 있는 개선을 찾아내는 점이 장기 자율 최적화의 가능성을 보여준다.

핵심 최적화 전략을 정리하면 다음과 같다:

단계	최적화 기법	소요 시간	성능 향상
1단계	Split-KV 병렬화 + online softmax rescaling	~2시간	0.33배 → 2.58배
2단계	cudaMalloc/Free 사전 할당 + cudaMemcpy 제거	~2.5시간	5.37배
3단계	워크로드 기반 split divisor 휴리스틱	~3시간	6.85배
4단계	공유 메모리 배리어 제거 + 레지스터 K/V 로딩	~22시간	8.50배
최종	MTP 감마=4 특화 커널	~3시간	10.0배

에이전트 학습의 일반화 전략

Qwen3.7-Max의 학습 방법론도 독창적이다. 알리바바 팀은 각 학습 인스턴스를 Task, Harness, Verifier라는 세 가지 직교 구성요소로 분리했다. 같은 작업을 서로 다른 하네스 유형과 버전, 검증자로 조합해 학습함으로써 모델이 특정 하네스의 지름길을 외우는 것이 아니라 일반화된 문제 해결 전략을 익히도록 했다.

평가에 사용된 모든 벤치마크는 학습에 포함되지 않은 완전히 새로운 환경으로 구성됐다. Qwen3.7-Max는 벤치마크 특화 개선보다 일반화된 역량 향상을 보여주며, 상위 3위 평균 순위를 달성했다.

스타트업 운영 시뮬레이션

Dynamic Cumulative Survival Games 프레임워크를 활용한 학습을 통해 장기 계획과 실행 역량도 강화했다. YC-Bench에서 Qwen3.7-Max는 스타트업의 1년 전체 생애주기를 시뮬레이션하며 인력 관리, 계약 검토, 악성 고객 식별 등 수백 라운드의 의사결정을 수행했다.

결과는 총매출 208만 달러로, Qwen3.6-Plus의 105만 달러 대비 2배, Qwen3.5-Plus의 35만2천 달러 대비 5.9배에 달했다. 안정적 수익원 우선순위화와 중기 위기에서의 자율 회복까지 스스로 해내는 점이 인상적이다.

개발자가 알아야 할 활용법

API 사용

Alibaba Cloud Model Studio는 OpenAI 사양과 호환되는 chat completions와 responses API를 제공한다.preserve_thinking 기능을 활성화하면 이전 모든 턴의 사고 내용을 메시지에 보존하므로 에이전트 작업에 권장된다.

from openai import OpenAIclient = OpenAI(api_key="your-dashscope-api-key",base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1")response = client.chat.completions.create(model="qwen3.7-max",messages=[{"role": "user", "content": "CUDA kernel"}],extra_body={"preserve_thinking": True})

코딩 에이전트 통합

# Qwen Code 연동 예시from qwen_code import Agentagent = Agent(model="qwen3.7-max",tools=["bash", "edit", "search"])# 수백 단계에 걸친 자율 디버깅 작업result = agent.run("Find and fix all race conditions in this codebase")

프런트엔드 코딩

단일 프롬프트에서 Three.js 3D 장면, Canvas 애니메이션, 전체 페이지 레이아웃, 동적 SVG를 포함한 상호작용 웹 애플리케이션을 생성할 수 있다. 카메라 기반 인식을 통해 입자군을 제어하거나 3D 회전 효과를 만드는 것도 가능하다.

사무 자동화

도구 통합을 통해 대학 논문 형식 규격을 읽고 어수선한 초안을 자율적으로 포맷팅할 수 있다. 페이지 레이아웃, 제목 스타일, 글꼴, 여백, 목차, 참고문헌 형식 등을 자동으로 수정한다.

물리 세계 내비게이션

도구 호출을 통해 로봇 개를 조종하는 시뮬레이션도 공개됐다. 물리 환경에서 물리적 이해, 계획, 메모리, 의사결정을 모두 수행하며 로보틱스 에이전트의 가능성을 보여준다.

결론

Qwen3.7-Max는 에이전트 중심 AI의 새 기준을 제시하는 모델이다. 35시간 자율 최적화에서한 10배 속도 향상, 수천 단계에 걸친 자율 실행 능력, 그리고 벤치마크 특화가 아닌 일반화 역량 강화라는 학습 전략까지 — 개발자와 기업 모두에게 실무에 적용할 만한 가치가 충분하다.

곧 공개되는 API를 통해 실제 업무 환경에서 검증해볼 수 있을 것이다. 특히 코딩 에이전트, 사무 자동화, 장기 프로젝트 관리에서 주목할 성과를 낼 수 있을지 지켜보는 것이 좋겠다.

📚 출처

• https://news.hada.io/topic?id=29716

'AI 뉴스' 카테고리의 다른 글

Remove-AI-Watermarks - 이미지에서 AI 워터마크를 제거하는 CLI와 라이브러리 (0)	2026.05.22
OpenAI 모델이 72년 된 수학 추측을 반박했다 (0)	2026.05.22
Gemini CLI, 2026년 6월 18일停产 — 마이그레이션 완벽 가이드 (0)	2026.05.22
Google의 AI가 조작되고 있다. 검색 거인은 조용히 반격 중 (0)	2026.05.21
OpenAI, 검증 도구와 함께 AI 이미지에 Google의 SynthID 워터마크 도입 (0)	2026.05.21

현재글Qwen3.7-Max: 에이전트 프런티어 완벽 가이드

ICBM의 Dev 블로그

AI 코딩, llm, gemini, 보안, Codex, Claude, 개발도구, claude code, 오픈소스, ChatGPT, rust, 에이전트, Google, Anthropic, AI에이전트, 인공지능, Cursor, OpenAI, Ai, 자동화,

Today :
Yesterday :

ICBM의 Dev 블로그