Фото пользовательницы @vas3k в соцсети X
ChatGPT теперь сам умеет генерировать изображения. Он делал это и раньше, но отправлял запросы в отдельную модель DALL·E. Внутренняя система визуализации GPT‑4o куда более продвинутая: теперь можно описать сцену словами, получить картинку и при необходимости сразу уточнить детали, изменить фон или заменить объект. Все это работает в пределах одного диалога и учитывает контекст переписки. О запуске объявил Сэм Альтман во время прямого эфира.
GPT‑4o создает изображения на основе текстового запроса и поддерживает работу с визуальным контекстом, загруженными картинками, уточнениями и правками. Вот что теперь умеет ИИ:
Пользователи уже активно пробуют новую визуальную генерацию и делятся тем, что у них получается. Ниже — подборка изображений, созданных с помощью GPT‑4o. Результаты действительно впечатляют.
GPT‑4o по запросу создала скриншот, стилизованный под Wikipedia: с версткой, схемами, подписями и пояснением, как работает зеркальный фотоаппарат. Выглядит как настоящая.
На круглом зеркале — слово «listen», будто выложенное из воды. Композиция, перспектива и небрежные очертания слов выглядят реалистично, текст читается без искажений.
Модель изменила стиль изображения — сделала «цвета ярче и лам милее», — но сохранила структуру сцены. Формулы на доске переданы без ошибок и текстовых галлюцинаций.
GPT-4o передала все элементы из описания: рукописный текст, вид из окна, логотип на футболке и даже размытое отражение фотографа в стекле. Тут, кстати, сравнивают результаты генерации с Gemini (справа).
На месте компьютера — огурцы, слоган тоже переосмыслен. Композиция, шрифт и стиль оригинала сохранены.
На втором изображении гроздь винограда удалена через встроенный инструмент выделения. Достаточно указать нужную область, модель дорисует фон автоматически. Остальные элементы при этом остаются без изменений.
Модель перерисовала фото в мультяшном стиле, сохранив позу собаки, цветовую палитру, ракурс и детали окружения. Интерьер легко узнается, даже несмотря на стилистическую трансформацию, — от доски на стене до складок на покрывале.
С появлением визуальной генерации GPT‑4o превращается в полноценный инструмент для коммуникации: текст, изображения, правки и доработки — все происходит в одном диалоге. Модель помогает быстро визуализировать идеи, создавать иллюстрации, прототипы и макеты, редактировать фотографии — без переключения между сервисами.
По словам OpenAI, фокус был не просто на красоте изображений, а на их пользе в рабочих задачах. GPT‑4o умеет следовать точным инструкциям, располагать объекты в логике промпта, сохранять стиль и содержание от запроса к запросу. Это делает визуальную генерацию практическим инструментом для презентаций, логотипов, объясняющих схем, образовательных материалов, игровых прототипов и не только. Модель также хорошо работает с текстом в изображениях и поддерживает кириллицу, что открывает больше возможностей для локализованных задач.
Функция уже доступна в ChatGPT и Sora — видеомодели от OpenAI. Разработчики получат доступ к API в ближайшие недели.
Вместо ДНК модель анализирует гормоны и половые стероиды, чтобы уловить индивидуальные темпы старения
Топ лучших тренировок на основе научных исследований
14 приемов, проверенных наукой и лабораторией Яндекс Практикума