AI 뉴스

ChatGPT Images 2.0 공개 — 이미지 AI가 '생각'하는 시대의 도래

노동1호 2026. 4. 22. 21:02
OpenAI가 공개한 ChatGPT Images 2.0 — 이미지 생성 AI의 새로운 패러다임

OpenAI가 2026년 4월 21일(현지시간), 차세대 이미지 생성 모델 ChatGPT Images 2.0을 공개했다. 기존 이미지 생성 AI가 프롬프트를 받으면 곧바로 픽셀을 그리던 방식에서 벗어나, 이번 모델은 렌더링 전에 구도와 디테일을 '생각(thinking)'하는 OpenAI 최초의 이미지 모델이다. 이는 이미지 생성 AI를 단순한 창의적 장난감에서 실무 제작 도구로 끌어올리는 도약으로 평가받고 있다.

ChatGPT Images 2.0이 다른 이유: Thinking 기반 구조

이번 출시의 핵심 차별점은 바로 '사고(thinking)' 모드다. 기존 이미지 생성 모델(DALL-E 3, gpt-image-1 등)은 사용자 프롬프트를 입력받으면 확산 과정을 통해 곧바로 이미지를 생성했다. 반면 ChatGPT Images 2.0은 렌더링 전에 다음 단계를 수행한다.

  • 구도 계획: 프롬프트를 분석해 사물의 위치와 관계를 정교하게 구성
  • 항목 카운트: 요청된 객체 개수를 사전에 확인
  • 제약 조건 검증: 레이아웃, 비율, 텍스트 배치 등을 미리 점검
  • 자기 검토: 생성된 결과물을 스스로 평가하고 필요시 수정

이 사고 과정은 세 가지 강도(low, medium, high)로 조절할 수 있다. 차트, 표, 숫자 정확도가 중요한 다이어그램이나 인포그래픽을 생성할 때는 medium이 권장되는 기본값이다.

또한 thinking 모드에서는 웹 검색 기능도 지원된다. 실제 브랜드나 장소, 최신 정보가 필요한 이미지를 생성할 때 웹에서 관련 정보를 탐색하여 더 정확한 결과물을 만들어낸다.

gpt-image-1 대비 주요 스펙 비교

이전 세대인 gpt-image-1과 비교하면, ChatGPT Images 2.0은 거의 모든 면에서 대폭 향상되었다.

기능 gpt-image-1 gpt-image-2
최대 해상도 1,024px 2,000px
화면 비율 1:1, 3:2, 2:3 1:1, 3:2, 2:3, 16:9, 9:16, 3:1, 1:3
요청당 이미지 수 1개 최대 10개 (스타일 일관성 유지)
텍스트 렌더링 영어만, 종종 깨짐 한국어·일본어·중국어·힌디어·벵골어
추론(Thinking) 모드 미지원 지원 (low/medium/high)
생성 중 웹 검색 미지원 지원

다국어 텍스트 렌더링: 이미지 AI의 오랜 숙제 해결

이미지 생성 AI의 오랜 난제였던 '이미지 속 글자 새기기' 문제가 크게 개선되었다. 기존 모델은 영어 텍스트만 어느 정도 렌더링할 수 있었고, 한글이나 일본어 같은 비라틴계 문자는 거의 불가능했다. ChatGPT Images 2.0은 한국어, 일본어, 중국어, 힌디어, 벵골어 등 다국어 스크립트에서 텍스트 렌더링 품질을 획기적으로 개선했다.

이를 통해 메뉴판, 표지판, 문서 이미지, 포스터, 설명 자료에서 읽을 수 있는 수준의 정확한 텍스트를 구현할 수 있게 되었다. 다만 수백 자가 넘는 긴 텍스트 블록은 여전히 깨질 수 있으므로, 캡션·제목·라벨 수준의 용도로 사용하는 것이 권장된다.

일괄 생성(Batch Mode): 한 프롬프트로 10장까지

가장 실용적인 변화 중 하나는 일괄 생성 모드다. 단일 프롬프트로 구성과 팔레트를 공유하는 최대 10개의 변형 이미지를 한 번에 생성할 수 있다. 디자이너가 반복 작업을 수행하거나, 제품 팀이 페이지 세트 전반에 걸쳐 일관된 히어로 이미지를 생성하는 방식과 동일하다.

다양한 화면 비율(3:1 파노라마부터 1:3 세로형까지)을 지원하므로, 배너 광고, 슬라이드 표지, 세로형 숏츠 썸네일 등 다양한 포맷의 콘텐츠를 업스케일링 없이 바로 생성할 수 있다.

API 활용: 개발자를 위한 gpt-image-2

ChatGPT UI 업데이트뿐만 아니라, 동일한 기반 모델인 gpt-image-2가 OpenAI API를 통해 제공된다. 기존 images/generations 엔드포인트 패턴을 그대로 따르므로, 기존 SDK 래퍼는 모델 ID만 교체하면 바로 동작한다.

API 가격은 토큰 기반 과금 체계를 따른다. 입력 텍스트 토큰 백만 개당 $5, 출력 텍스트 $10, 입력 이미지 $8, 출력 이미지 $30이다. 표준 1024×1024 고품질 기준 이미지당 약 $0.21로, 이전 세대보다 약 60% 비싸다. 이는 더 큰 캔버스와 추론 단계에 따른 비용이다. thinking 모드는 추가 추론 토큰에 대해 별도로 과금되므로, 레이아웃 정밀도가 중요한 작업일수록 비용이 더 든다.

이용 가능 범위

  • ChatGPT 무료 사용자: 표준 gpt-image-2 모델 사용 가능
  • ChatGPT Plus/Pro/Business: thinking 모드, 더 긴 추론 실행, 생성 중 웹 검색 이용 가능
  • API 개발자: gpt-image-2 모델 ID로 두 가지 모드 모두 이용 가능

알아둘 한계점

강력한 성능에도 불구하고 여전히 일부 한계가 존재한다. 근접 촬영된 사실적인 얼굴, 특히 유명인의 초상화는 여전히 불안정하며 OpenAI의 신원 보호 장치가 많은 프롬프트를 거부한다. 정확한 브랜드 자산(로고 기하학, 상표 등록 캐릭터)은 신뢰할 수 없으므로 분위기 연출 용도로만 사용해야 한다. 또한 세션 간 일관성은 보장되지 않으므로, 일관된 스타일이 필요하면 반드시 한 번의 API 호출에서 일괄 생성해야 한다.

전망: 이미지 AI의 판도 변화

ChatGPT Images 2.0은 이미지 생성 AI의 패러다임을 '단순 생성'에서 '사고 기반 제작'으로 전환시킨다. 기획서, 마케팅 소재, 교육 자료, 인포그래픽, 소셜 콘텐츠 등 실무에서 바로 활용 가능한 결과물을 생성할 수 있게 되었다. OpenAI가 스스로 표현한 대로 "이건 스크린샷이 아닙니다" — AI가 만든 이미지와 실제 화면의 경계가 사라지고 있다.

Google의 Gemini 기반 이미지 모델, Alibaba의 Qwen 시리즈, 오픈소스 멀티모달 모델 등 경쟁도 치열하지만, 추론 능력과 ChatGPT 생태계 통합이라는 강점으로 OpenAI는 이미지 생성 분야에서 본격적인 승부를 걸기 시작했다. 향후 2K 초과 고해상도 출력이 베타에서 정식 지원으로 확대되고, 세션 간 일관성이 개선된다면 실무 디자인 워크플로우에서의 활용 범위는 더욱 넓어질 전망이다.

요약

  • OpenAI 최초의 thinking 기반 이미지 생성 모델 — 렌더링 전에 구도·디테일을 사전 계획
  • 최대 2,000px 해상도, 3:1~1:3 극단 비율 지원
  • 한국어 포함 다국어 텍스트 렌더링 품질 획기적 개선
  • 단일 프롬프트로 최대 10개 이미지 일괄 생성 (스타일 일관성)
  • ChatGPT 무료 사용자도 기본 모델 사용 가능, Plus 이상 thinking 모드 지원
  • API 모델명: gpt-image-2, 기존 엔드포인트 호환