Работа
26 марта, 2025
Техника

Новые возможности ChatGPT, которые поражают воображение

Обновленная GPT‑4o теперь сама рисует картинки — и результаты действительно впечатляют

Новые возможности ChatGPT, которые поражают воображение

Фото пользовательницы @vas3k в соцсети X

ChatGPT теперь сам умеет генерировать изображения. Он делал это и раньше, но отправлял запросы в отдельную модель DALL·E. Внутренняя система визуализации GPT‑4o куда более продвинутая:  теперь можно описать сцену словами, получить картинку и при необходимости сразу уточнить детали, изменить фон или заменить объект. Все это работает в пределах одного диалога и учитывает контекст переписки. О запуске объявил Сэм Альтман во время прямого эфира.

Что умеет новая модель

GPT‑4o создает изображения на основе текстового запроса и поддерживает работу с визуальным контекстом, загруженными картинками, уточнениями и правками. Вот что теперь умеет ИИ:

  • создает картинку со слов — можно описать, что должно быть на изображении, задать стиль, цвета, пропорции, цвет фона или попросить сделать фон прозрачным; 
  • GPT‑4o научилась лучше справляться с текстом на изображениях, включая кириллицу, — ошибки и искажения стали реже;
  • модель может сочетать в кадре до 20 объектов и понимает связи между ними;
  • она «запоминает» внешний вид персонажей, если вы просите изменить, доработать или продолжить изображение (раньше в ответ на просьбу доработать получившуюся картинку, модель отвечала, что может только нарисовать новую);
  • GPT‑4o умеет редактировать уже готовые загруженные картинки, включая изображения с людьми, — заменять элементы на переднем и заднем плане, встраивать новые объекты;
  • генерация занимает до минуты — дольше, чем в DALL·E, — но зато ИИ выдает более точные и проработанные изображения;
  • все изображения снабжаются C2PA-метаданными — это техническая метка внутри файла, которая показывает, что изображение создано с помощью ИИ. Визуально ее не видно, но она считывается специальными инструментами.

Реакция пользователей

Пользователи уже активно пробуют новую визуальную генерацию и делятся тем, что у них получается. Ниже — подборка изображений, созданных с помощью GPT‑4o. Результаты действительно впечатляют.

Фейковая вики-страница про фотографию

GPT‑4o по запросу создала скриншот, стилизованный под Wikipedia: с версткой, схемами, подписями и пояснением, как работает зеркальный фотоаппарат. Выглядит как настоящая.

Модель сгенерировала фейковую вики-страницу про SLR — выглядит как настоящая (@luca_cazzaniga в соцсети X).
Модель сгенерировала фейковую вики-страницу про SLR — выглядит как настоящая (@luca_cazzaniga в соцсети X).

Текст из воды на зеркале

На круглом зеркале — слово «listen», будто выложенное из воды. Композиция, перспектива и небрежные очертания слов выглядят реалистично, текст читается без искажений. 

GPT‑4o сгенерировала отражающую поверхность с текстом из воды, уложенным на траве (@reynoldsj_01 в соцсети X).
GPT‑4o сгенерировала отражающую поверхность с текстом из воды, уложенным на траве (@reynoldsj_01 в соцсети X).

Иллюстрация по референсу с точной передачей текста

Модель изменила стиль изображения — сделала «цвета ярче и лам милее», — но сохранила структуру сцены. Формулы на доске переданы без ошибок и текстовых галлюцинаций.

Модель изменила стиль изображения, сохранив детали оригинала. Текст без искажений, как это обычно бывает при генерации изображений (@rolandalong в соцсети X).
Модель изменила стиль изображения, сохранив детали оригинала. Текст без искажений, как это обычно бывает при генерации изображений (@rolandalong в соцсети X).

Сцена с доской, логотипом и отражением

GPT-4o передала все элементы из описания: рукописный текст, вид из окна, логотип на футболке и даже размытое отражение фотографа в стекле. Тут, кстати, сравнивают результаты генерации с Gemini (справа).

Даже сложные детали вроде отражения и почерка получились правдоподобно (@sharqwy в соцсети X).
Даже сложные детали вроде отражения и почерка получились правдоподобно (@sharqwy в соцсети X).

Билборд по мотивам рекламы Apple

На месте компьютера — огурцы, слоган тоже переосмыслен. Композиция, шрифт и стиль оригинала сохранены.

Модель попросили заменить компьютер на огурцы и переосмыслить слоган под новый контекст. Все на месте, вплоть до шрифта (телеграм-канал Trabun | AI, Tech, Culture, Trends).
Модель попросили заменить компьютер на огурцы и переосмыслить слоган под новый контекст. Все на месте, вплоть до шрифта (телеграм-канал Trabun | AI, Tech, Culture, Trends).

Удаление объектов с помощью инструмента «выделение»

На втором изображении гроздь винограда удалена через встроенный инструмент выделения. Достаточно указать нужную область, модель дорисует фон автоматически. Остальные элементы при этом остаются без изменений.

С помощью инструмента «выделение» можно удалить ненужный объект на сгенерированном изображении (@Time_travellin9 в соцсети Х).
С помощью инструмента «выделение» можно удалить ненужный объект на сгенерированном изображении (@Time_travellin9 в соцсети Х).

Стилизация загруженного изображения

Модель перерисовала фото в мультяшном стиле, сохранив позу собаки, цветовую палитру, ракурс и детали окружения. Интерьер легко узнается, даже несмотря на стилистическую трансформацию, — от доски на стене до складок на покрывале.

@vas3k в соцсети X
@vas3k в соцсети X

Что это дает

С появлением визуальной генерации GPT‑4o превращается в полноценный инструмент для коммуникации: текст, изображения, правки и доработки — все происходит в одном диалоге. Модель помогает быстро визуализировать идеи, создавать иллюстрации, прототипы и макеты, редактировать фотографии — без переключения между сервисами.

По словам OpenAI, фокус был не просто на красоте изображений, а на их пользе в рабочих задачах. GPT‑4o умеет следовать точным инструкциям, располагать объекты в логике промпта, сохранять стиль и содержание от запроса к запросу. Это делает визуальную генерацию практическим инструментом для презентаций, логотипов, объясняющих схем, образовательных материалов, игровых прототипов и не только. Модель также хорошо работает с текстом в изображениях и поддерживает кириллицу, что открывает больше возможностей для локализованных задач.

Функция уже доступна в ChatGPT и Sora — видеомодели от OpenAI. Разработчики получат доступ к API в ближайшие недели.

Вы уже оценили материал
Продолжайте читать
ЗОЖ
28 марта, 2025
Новое

ИИ научили точно определять биологический возраст по анализу крови

Вместо ДНК модель анализирует гормоны и половые стероиды, чтобы уловить индивидуальные темпы старения

Вместо ДНК модель анализирует гормоны и половые стероиды, чтобы уловить индивидуальные темпы старения

ИИ научили точно определять биологический возраст по анализу крови
ЗОЖ
28 марта, 2025
Образ жизни

6 самых эффективных упражнений для прокачки пресса

Топ лучших тренировок на основе научных исследований

Топ лучших тренировок на основе научных исследований

6 самых эффективных упражнений для прокачки пресса
SPECIAL
10 марта, 2025

Обучение для взрослых: как начать и не бросить

14 приемов, проверенных наукой и лабораторией Яндекс Практикума

14 приемов, проверенных наукой и лабораторией Яндекс Практикума

Обучение для взрослых: как начать и не бросить