AI 뉴스

Antigravity 2.0, OpenSCAD 건축 3D LLM 벤치마크에서 1위

노동1호 2026. 5. 25. 01:04

OpenSCAD Pantheon 벤치마크 — AI가 생성한 3D 건축 모델


Antigravity 2.0, OpenSCAD 건축 3D LLM 벤치마크에서 1위

AI 코딩 도구들이 건축물을 파라메트릭 CAD 코드로 구현할 수 있는지 시험하는 OpenSCAD Pantheon 벤치마크가 화제다. 2026년 5월 실시된 이 테스트에서 Google Antigravity 2.0(Gemini 3.5 Flash High)이 자율 에이전트 부류에서 최고점인 4.5/5를 기록하며 1위를 차지했다.

벤치마크 개요

ModelRift가 고안한 이 벤치마크는 다음과 같은 조건으로 진행됐다:

입력: Pantheon 건물 이미지 2장 + 짧은 영어 프롬프트

과제: Pantheon을 OpenSCAD 파라메트릭 CAD 코드로 구현

검증: OpenSCAD CLI로 PNG 미리보기 렌더링 후 반복 개선

평가 기준: 시간 점수(5/5) + 품질 점수(5/5)

Pantheon이 선택된 이유는 단순한 문법 테스트를 넘어서는 기하학적 복잡성을 갖추고 있으면서도, OpenSCAD가 다루기 어려운 유기적 조각이나 캐릭터형 기법은 아니기 때문이다. 로툰다, 돔, 중앙 오큘러스, 직선형 포르티코, 기둥, 계단식 기단, 삼각 페디먼트로 구성되며, 결과물의 차이를 비교하기 좋다.

테스트 대상 모델들

모델시간 점수품질 점수특징
Google Antigravity 2.0 / Gemini 3.5 Flash High1/54.5/5실제 Pantheon 치수·비문·내부 코퍼 천장 패턴 구현
ModelRift / Gemini Flash 3.01/53.8/5휴먼 인 더 루프 방식으로 시각 피드백 활용
Claude Code 2.1 / Sonnet 4.61/53.4/5기존 자율 실행 중 가장 균형 잡힌 비례
Claude Code 2.1 / Opus 4.72/53.0/5포르티코와 계단식 기단이 명확
Codex 5.5 High4/53.0/5디테일 밀도 최고, 하지만 STL과 미리보기 불일치
Cursor 3.5 / Composer 2.55/51.4/5가장 빠르지만 가장 낮은 품질

핵심 결과: Antigravity 2.0이한 이유

Antigravity 2.0이 1위를 차지한 핵심 이유는 구체적 치수 기반 접근이다.

Flash 3.5 High는 이미지를 눈대중으로만 보지 않고, 실제 Pantheon 매개변수를 직접 검색했다. 로툰다, 돔, 포르티코, 오큘러스에 대해 명시적 치수를 사용하고 이를 파라메트릭 OpenSCAD 값으로 변환했다.

> Implement a detailed, visually stunning, and dimensionally accurate 3D model of the Pantheon in Rome using OpenSCAD.

가장 뛰어났던 디테일은 천장 코퍼(coffer) 패턴이었다. Pantheon 돔 내부에는 5개의 링에 28개씩 총 140개의 사각 코퍼가 있는데, Antigravity는 이를 OpenSCAD에서 수학적으로 정확하게 구현했다. 다른 모든 자율 에이전트가 외부 구조에만 집중한 반면, 오큘러스를 통해 보이는 내부 천장 패턴까지 만든 것은 Antigravity만이 유일했다.

외부 결과에도 빠른 OpenSCAD 출력에서 흔히 누락되는 요소들이 포함됐다:

• 회색과 붉은색이 섞인 기둥 재질

• 읽을 수 있는 비문(M AGRIPPA L F COS TERTIVM FECIT)

• 계단식 지붕 링

• 로툰다, 중간 블록, 포르티코, 돔 사이의 정확한 관계

완전 자율 실행의 한계

벤치마크에서 드러난 가장 중요한 교훈은 "속도는 품질을 예측하지 못한다"는 점이다.

Cursor: 가장 빠른 상호작용 루프(시간 5/5)를 제공했지만, 품질은 가장 낮았다(1.4/5). 돔과 포르티코의 큰 형태만 맞췄을 뿐, 비례·색상 통제·건축적 디테일이 부족했다.

Sonnet: 기존 자율 실행 중 가장 오래 걸렸지만(시간 1/5), 가장 깨끗한 모델을 뒀다(3.4/5). 실루엣이 깨끗하고 주요 건축 부품이 하나의 건물로 자연스럽게 맞물렸다.

Antigravity: 느렸지만(시간 1/5), Gemini 3.5 Flash High의 계획·반복 시간을 활용한 뒤 최고의 자율 결과를 냈다.

"미리보기와 내보내기는 같지 않다" 는 교훈도 나왔다. Codex 5.5 High는 렌더 루프에서 가장 강력한 모습을 보였지만, 최종 STL에서는 포르티코 지붕 주변 기하 문제가 발생했다. Codex의 엔태블러처 비문은 좋은 디테일이었지만, 내보내기 리스크가 점수에 크게 반영됐다.

휴먼 인 더 루프의 가치

ModelRift / Gemini Flash 3.0 조합(3.8/5)은 자율 단일 패스가 아닌 휴먼 인 더 루프 방식으로 진행됐다.

워크플로는 대략 10분이 걸렸는데, 모델 생성 후 브라우저에서 현재 렌더를 검사하고, 렌더 위에 시각 노트를 직접 그린 뒤, AI에 수정 요청을 반복하는 방식이다. 공간 CAD 작업에서는 이 루프가 텍스트만으로 지시하는 방식보다 훨씬 정밀하다.

> 모델이 큰 매스는 맞춰도 기둥 위치나 돔 비례를 틀릴 수 있다. 렌더 위에서 문제를 직접 가리키는 방식이 텍스트로 설명하는 것보다 빠르고 정확하다.

모든 자율 에이전트가 OpenSCAD CLI를 호출하고 PNG 미리보기를 렌더링할 수 있었던 것은 맞다. 그러나 병목은 도구 접근이 아니라 기하 판단, 카메라 설정, 미리보기 모델을 깨끗한 최종 메시로 내보낼 수 있는지였다.

LLM과 OpenSCAD의 시너지

OpenSCAD는 LLM 기반 기하 생성의 대상으로 매우 적합한 언어다. 문법이 작고 출력이 결정적이며, CLI가 반복 루프에서 검사 가능한 미리보기를 렌더링한다. "반지름 주변에 28개 기둥 반복"이나 "돔에서 오큘러스 빼기" 같은 지시를 소스 코드로 직접 표현할 수 있다.

LLM들은 별도의 프롬프트 엔지니어링 없이 OpenSCAD 문법을 소화했다. 모든 에이전트가 macOS PATH의 OpenSCAD를 호출할 수 있었고, 도구 사용 자체는 병목이 아니었다.

향후 전망

이 벤치마크는 완전 자율 생성은 아직 3D 건축의 올바른 워크플로가 아님을 시사한다. ModelRift에서도 반복 작업에는 여전히 Annotation Mode를 사용한다. 3D 모델 스크린샷에 화살표와 노트를 직접 그려 AI에 되돌려주는 방식이 공간 기하에서는 텍스트 지시보다 효과적이다.

Gemini 3.5 Flash는 입력 100만 토큰당 1.50달러, 출력 100만 토큰당 9.00달러로, 이전 세대 대비 3배 비용 증가이지만, 공간 코드 생성 능력이 크게 향상된 것은 사실이다. 품질과 비용·지연 시간을 함께 고려해야 하는 실용적 선택이 필요하다.

핵심 정리

1. Google Antigravity 2.0(Gemini 3.5 Flash High) 이 자율 에이전트 부류 최고점(4.5/5) 달성

2. 병목은 도구 접근이 아니라 기하 판단과 최종 메시 검증 — OpenSCAD CLI 호출 자체는 모든 에이전트가 가능했다

3. 속도는 품질을 예측하지 못함 — 가장 빠른 Cursor가 가장 낮고, 가장 느린 Sonnet이 균형 잡힌 결과를 냈다

4. 미리보기와 내보낸 메시의 품질은 다름 — STL 검사 없이는 진정한 품질을 알 수 없다

5. 공간 기하에서는 휴먼 인 더 루프가 텍스트 지시보다 효과적 — 렌더 위에 직접 노트를 그려 되돌려주는 방식이 최고

2장의 이미지와 짧은 프롬프트만으로 모든 시스템이 CAD 코드를 직접 쓰지 않고도 유효하고 렌더 가능한 OpenSCAD 결과에 도달했다. 도구 간 품질 차이는 컸지만, 출발선 자체는 예상보다 높았다. 완전 자율 생성의 여정、Hybrid 워크플로(자율 생성 + 휴먼 인 더 루프)가 현재로서 가장 실용적인 접근법이다.


📚 출처

ModelRift OpenSCAD Pantheon 벤치마크

GeekNews 원본


📚 출처

https://news.hada.io/topic?id=29796