'swe-bench' 태그의 글 목록

swe-bench 4

Kimi K2.6가 코딩 챌린지에서 Claude, GPT-5.5, Gemini를 이김 — 개발자가 알아야 할 핵심 정리

Kimi K2.6 — 코딩 챌린지 1위 / Moonshot AIKimi K2.6가 코딩 챌린지에서 Claude, GPT-5.5, Gemini를 이김 — 개발자가 알아야 할 핵심 정리2026년 5월 3일, 개발자 Rohana Rezel이 운영하는 AI Coding Contest 시리즈의 12일차 챌린드가 열렸다. 8개 최첨단 AI 모델, 1개의 퍼즐 보드. 그 자리에서 승자는 단 하나였다. 바로 중국 스타트업 Moonshot AI의 오픈가중치 모델 Kimi K2.6였다.K2.6는 22/match 포인트, 7승 1무 0패 기록으로 압도적 1위를 차지했다. 2위는 샤오미의 MiMo V2-Pro. 3위 GPT-5.5, 5위 Claude Opus 4.7을 포함해서방적 모든 프론티어 모델이 상위 2위 안에 들지 못..

AI 뉴스 2026.05.05

GPT 5.5 vs Opus 4.7, 코딩/프로그래밍에 더 나은 모델은? 완벽 비교

2026년 4월, AI 개발자 세계는 단 두 주 사이에 완전히 뒤집혔습니다. Anthropic이 Claude Opus 4.7로 코딩 왕관을 되찾은 지 일주일도 채 되지 않아, OpenAI가 GPT-5.5(코드네임 "Spud")로 역공개를 펼쳤습니다. 이 두 모델의 격차는 단순한 벤치마크 숫자가 아니라, 개발자 워크플로우의 근본적인 선택을 요구합니다.출시 배경: 거의 동시에 시작된 두 번째 전장Anthropic은 4월 16일 Claude Opus 4.7를 출시하며 SWE-bench Pro에서 53.4%(Opus 4.6)에서 64.3%로 11포인트 급등을 보여줬습니다. 같은 가격($5/$25 per million tokens)을 유지하면서 고해상도 비전(3.75메가픽셀), 새로운 xhigh effort 레벨..

AI 뉴스 2026.04.27

OpenAI, API에 GPT-5.5와 GPT-5.5 Pro 출시 — 개발자가 알아야 할 핵심 정리

OpenAI가 2026년 4월 23일 공식 발표를 통해 최신 모델 GPT-5.5를 출시했다. 같은 날 ChatGPT 및 Codex의 유료 구독자(Plus, Pro, Business, Enterprise)에게 순차 적용됐으며, 하루 뒤인 4월 24일에는 드디어 API에서도 사용할 수 있게 됐다. 이번 릴리스는 단순한 성능 향상 그 이상이다. 개발자와 지식 노동자의 실제 워크플로우에 직접 통합될 수 있는 에이전트 중심의 모델로, AI 활용의疆界를 넓히는 전환점이 될 것으로 보인다.GPT-5.5 vs GPT-5.5 Pro: 두 가지 SKU의 차이GPT-5.5는 단일 모델이 아니라 두 가지 계층으로 제공된다. ChatGPT에서 일반 사용자가 접하는 것은 GPT-5.5 Thinking이며, 복잡한 추론이 필요한 ..

AI 뉴스 2026.04.27

Kimi K2.6 공개 — 오픈소스 코딩 에이전트가 프론티어를 넘다

Moonshot AI의 Kimi K2.6 — 오픈소스 코딩 에이전트의 새로운 이정표2026년 4월 20일, 중국 베이징의 AI 스타트업 Moonshot AI가 Kimi K2.6을 정식 공개했다. 지난 2025년 7월 K2를 처음 선보인 이후 9개월 동안 5차례의 메이저 업데이트를 거치며 도달한 결과물이다. 단순한 점진적 개선이 아니다 — SWE-Bench Pro에서 GPT-5.4와 Claude Opus 4.6을 넘어서고, 12시간 연속 자율 코딩에 300개 에이전트 스웜을 구동하는, 오픈소스 코딩 모델의 패러다임 전환을 의미한다.아키텍처: 1조 파라미터 MoE, 32B 활성화Kimi K2.6은 Mixture-of-Experts(MoE) 구조를 기반으로 한다. 전체 1조(1T) 파라미터 중 토큰당 32B만..

AI 뉴스 2026.04.21

ICBM의 Dev 블로그

Git, claude code, AI에이전트, 개발도구, ChatGPT, 에이전트, Cursor, OpenAI, gemini, 자동화, 인공지능, AI 에이전트, llm, Anthropic, Ai, Claude, devops, 오픈소스, 보안, AI 코딩,

Today :
Yesterday :

« 2026/05 »
일	월	화	수	목	금	토
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

swe-bench 4

티스토리툴바