Работа

weborama pixel

Реклама

Партнер рубрики «Работа» — АО «ПФ «СКБ Контур». ИНН 6663003127. erid: 2RanykxrAdX

Как создать картинку с помощью ИИ: тестируем ChatGPT, Grok и Ideogram

Разбираем лучшие модели и даем промпты для генерации изображений

Как создать картинку с помощью ИИ: тестируем ChatGPT, Grok и Ideogram

Изображение создано с помощью Chat GPT

ИИ-сервисов, умеющих генерировать изображения, — десятки. Но когда нужно просто и быстро сделать картинку, не всегда понятно, за что хвататься. Одни требуют оформить подписку сразу после регистрации. Другие настолько перегружены настройками и «продвинутыми функциями», что перед использованием придется потратить пару часов на освоение простейших операций. 

Для нашего обзора мы выбрали три ИИ-модели — ChatGPT, Grok, Ideogram

Они создают изображения без обязательной подписки и не требуют навыков дизайна и prompt-инженерии. И протестировали их на трех базовых задачах: 

  • Создание иллюстрации с заданным стилем и надписью на русском языке
  • Генерация фотореалистичного изображения 
  • Обработка фото под заданный стиль 

Для чистоты эксперимента везде использовали одинаковые промпты, с небольшими поправками — под особенности платформ.

Важно: промпты лучше формулировать на английском, потому что так ИИ-модели точнее понимают нюансы. Текст промпта можно перевести и подкорректировать тут же в чате.

Задача # 1: cюжетная картинка с текстом на русском 

Попробуем создать изображение, скомбинировав два стиля — типичную иллюстрацию из журнала The New Yorker и концепт-арт студии Ghibli. Первый — это минималистичные рисунки со сценами из городской жизни, часто с ироничным или трогательным акцентом. Второй — картинки в духе японской анимации, с мягким светом, приглушенной цветовой палитрой и узнаваемым сочетанием повседневности и фантазии. Сцена: терапевтическая сессия, один человек сидит на диване и говорит, второй — внимательно слушает и делает записи. На стене — постер с надписью «Все будет хорошо» на русском языке. Картинка горизонтальная, с пропорциями 3:2.

Промпт. A stylized editorial illustration in the style of New Yorker magazine drawings or Studio Ghibli concept art. A cozy therapy session scene: one person sits on a therapist’s couch and speaks, while another person (the therapist) listens attentively and takes notes. Use calm, warm colors, soft lighting, and detailed but slightly whimsical style. In the background, include a framed wall poster with Russian text that reads: “Всё будет хорошо” — make sure the text is in clear, readable Cyrillic font, centered and legible. In landscape orientation, aspect ratio 3:2. 

ChatGPT

После недавнего обновления GPT-4o получил оптимизированный генератор изображений, который умеет создавать картинки по текстовому описанию и значительно превосходит по точности и детализации использовавшийся до этого DALL·E 3 (подробнее об этом читайте тут ). Как это работает? Вводите простое текстовое описание (например, «нарисуй котика») и модель создает изображение. 

Еще один плюс — ChatGPT учитывает весь контекст разговора и историю запросов. То есть, когда вы просите создать картинку, не давая точные указания по цвету, теме и форме, ИИ использует параметры изображений, которые вы просили его сгенерировать до этого.

И самое главное — новый генератор изображений умеет правильно отображать кириллицу. Чтобы избежать искажений, указывайте в промпте in clear, readable Cyrillic font и сразу задавайте расположение надписи, например, on a framed wall poster.

ChatGPT отлично справился со стилем The New Yorker  и шрифтом. Надпись ровная, легко читается, картинка действительно похожа на иллюстрацию из журнала. А вот второй элемент формы — стилистика анимационной студии Ghibli — не просматривается.
ChatGPT отлично справился со стилем The New Yorker и шрифтом. Надпись ровная, легко читается, картинка действительно похожа на иллюстрацию из журнала. А вот второй элемент формы — стилистика анимационной студии Ghibli — не просматривается.

Обратите внимание — по умолчанию Chat GPT делает изображения в формате квадрата с соотношением сторон 1:1. Чтобы получить требуемый результат, нужно обязательно встраивать в промпт указание на формат: 

  • in landscape orientation — ландшафтный (горизонтальный) формат, обычно — 3:2 или 16:9
  • in portrait orientation — портретный (вертикальный), обычно — 2:3
  • aspect ratio 3:2 — прямо задает пропорции
  • wide image или horizontal format — более общее ландшафтной ориентации
  • panoramic — широкоформатное изображение, близко к соотношению — 21:9

Grok

Grok 3 использует для создания изображений интеграцию со сторонними ИИ-моделями. Когда вы пишете в чате, что хотите сгенерировать картинку, он выбирает подходящий инструмент по вашему запросу (обычно Flux.1, DALL·E 3 или MidJourney), передает на обработку ваш промпт и возвращает результат. 

Это накладывает на определенные ограничения на количество и качество изображений, которые Grok может создать по текстовому запросу. Лимиты заданы условиями бесплатных тарифов сторонних сервисов, к которым он обращается. В среднем это 2-10 изображений в день, с разрешением до 1024×1024 пикселей. Есть  лимит и у самого Grok 3 — не более 10 запросов на генерацию изображений каждые 2 часа.

С задачей Grok справился лишь частично. Русский текст искажен, стилистика упрощенная и неаутентичная. Даже после загрузки образца в редактор изображений и указания переделать это изображение, ориентируясь на заданный стиль, Grok просто изменил возраст персонажей, форму дивана и расположение фигур
С задачей Grok справился лишь частично. Русский текст искажен, стилистика упрощенная и неаутентичная. Даже после загрузки образца в редактор изображений и указания переделать это изображение, ориентируясь на заданный стиль, Grok просто изменил возраст персонажей, форму дивана и расположение фигур

Ideogram

Браузерный генератор изображений, ориентированный на простые текстовые запросы. Работает на основе собственной модели Ideogram 1.0, поддерживает создание как реалистичных, так и стилизованных изображений. 

Приложение создает по умолчанию четыре варианта изображения — на выбор. Ограничение: лимит на запросы — до 40 изображений в неделю. 

В генератор можно загрузка до трех референсных изображений в качестве ориентира по композиции, цвету или стилю. Есть интеграция текста в изображение, включая кириллицу. Это одна из немногих моделей, в творениях которой надписи на русском языке выглядят читабельно.

В промпт было внесено одно изменение: убрано упоминание разрешения, поскольку оно указывается в интерфейсе под окном ввода. 

Ideogram выдал четыре  варинта картинки быстрее ChatGPT и Grok. Однако русская надпись воспроизведена точно лишь в двух случаях из четырех. И с художественной точки зрения изображение не вполне соответствует заданной стилистике.
Ideogram выдал четыре варинта картинки быстрее ChatGPT и Grok. Однако русская надпись воспроизведена точно лишь в двух случаях из четырех. И с художественной точки зрения изображение не вполне соответствует заданной стилистике

Задача # 2: фотореалистичный бегун

Цель — создать максимально правдоподобное изображение, сопоставимое с фотографией. Ключевые аспекты: точность передачи движения, детализация мышц и естественные световые отражения. Важно достичь ощущения достоверности через проработку деталей и динамичность сцены. Сцена: спортстмен бежит в ночном городе под дождем. Критически важные элементы: реалистичная анатомия бегуна в движении, естественное размытие среды для передачи скорости, точная передача теней и бликов света на мокром асфальте и в каплях дождя, а также текстуры материалов — от влажной кожи до промокшей ткани. 

Промпт. A photorealistic image of a male runner in his 30s wearing black shorts and red running shoes sprinting through a rainy city street at night, with motion blur, detailed muscles and water reflections.

ChatGPT

Хорошая детализация, но есть проблема с ориентацией, которая наметилась еще в предыдущих версиях модели и не побеждена до сих пор. Бегун движется не вдоль, а поперек улицы, что портит впечатление реалистичности. Попытки исправить ситуацию с помощью дополнения к промпту «бегущий вдоль по улице, по ходу движения, а не через улицу» (sprinting along the street, following the direction of the road, not crossing it) не дали результата. 

Несмотря на хорошую проработку светотеней, красивое размытие и убедительный эффект глубины, изображения бегуна, сгенерированные ChatGPT, выглядят недостаточно фотореалистично — особенно заметна неестественность в сочетании фигуры на переднем плане и фона
Несмотря на хорошую проработку светотеней, красивое размытие и убедительный эффект глубины, изображения бегуна, сгенерированные ChatGPT, выглядят недостаточно фотореалистично — особенно заметна неестественность в сочетании фигуры на переднем плане и фона

Grok

Создание реалистичных изображений со светотенями и динамическими бликами считается главным достоинством генератора изображений Grok. Но, честно говоря, результат не сильно впечатляет. Единственное явное преимущество — Grok правильно ориентировал бегуна вдоль улицы. 

Фон сцены выполнен на высоком уровне, чего не скажешь о фигуру бегуна. Ее изображение явно уступает по качеству: анатомия слегка искажена, особенно в области плеч и рук, поза кажется статичной, как будто человек застыл посреди улицы. Это визуальное несоответствие снижает общую фотореалистичность сцены
Фон сцены выполнен на высоком уровне, чего не скажешь о фигуру бегуна. Ее изображение явно уступает по качеству: анатомия слегка искажена, особенно в области плеч и рук, поза кажется статичной, как будто человек застыл посреди улицы. Это визуальное несоответствие снижает общую фотореалистичность сцены

Ideogram

Та же проблема с ориентацией, что и у ChatGPT. Несмотря на все попытки скорректировать промпт, Ideogram все равно не выдал изображение с требуемым расположением фигуры. Еще один явный недостаток: не вполне реалистичная передача бега, ноги бегуна ни в одном варианте не касаются дороги, из-за этого при возникает ощущение, как будто фигуру наклеили на фон. 

Городской фон выглядит реалистично: атмосферное освещение, отражения на мокром асфальте и композиция передают ощущение дождливого дня. Однако фигура на всех четырех изображениях явно не вписывается в эту сцену. Ощущение неестественности усиливает излишне контрастная мускулатура, которая выглядит так, ак будто на нее направлен студийный свет
Городской фон выглядит реалистично: атмосферное освещение, отражения на мокром асфальте и композиция передают ощущение дождливого дня. Однако фигура на всех четырех изображениях явно не вписывается в эту сцену. Ощущение неестественности усиливает излишне контрастная мускулатура, которая выглядит так, ак будто на нее направлен студийный свет

Задача # 3: превратить фото в портрет

Сложная миссия — трансформировать случайное стрит-фото велосипедиста в нечто вроде студийного портрета. Ключевые технические сложности: изменение ракурса — поворот из профиля в анфас; коррекция освещения — замена естественного уличного света на профессиональное студийное; сохранение идентичности — несмотря на трансформации, человек должен оставаться узнаваемым. 

Чтобы добиться нужного результата, необходимо четко указать в промпте: 

  • что нужно сохранить: черты лица, выражение; 
  • что изменить: позу, освещение, фон; 
  • какой стиль придать: профессиональный студийный портрет. 

И очень важно отметить, что изображение на портрете должно воспроизводить  лицо на загруженной фотографии (based on the face in the uploaded photo). Именно это указание обеспечивает привязку к исходному изображению, с сохранением индивидуальных черт лица.

Промпт. Create a realistic photographic portrait based on the face in the uploaded photo. Keep the facial features and expression accurate. Show the person from the shoulders up, with natural skin tones, soft lighting, and a neutral blurred background, like a professional studio headshot.

ChatGPT

В новом графическом генераторе ChatGPT есть встроенный инструмент ручного редактирования изображений — inpainting, доступный и в бесплатной версии. Чтобы им воспользоваться, нужно проделать несколько шагов: 

  • Генерируете изображение в чате и скачиваете его
  • Загружаете скачанное изображение в чат 
  • Нажимаете Edit image 
  • Выделяете нужную область инструментом «кисть» (brush) 
  • Вводите в окно текстовое описание изменений (например, «поменяй цвет») — редактор меняет выделенную область. 

Однако ручное  редактирование с помощью встроенных инструментов доступно только для изображений, созданных в самом чате. Если вы хотите отредактировать свою картинку или фотографию, как в этом случае, указывать, что именно и как изменить, можно лишь в виде текстовых инструкций. Например, «поменяй цвет плаща на крайней фигуре слева». 

Результат превзошел все ожидания. Изображение говорит само за себя: слева — оригинал, справа — сгенерированный портрет
Результат превзошел все ожидания. Изображение говорит само за себя: слева — оригинал, справа — сгенерированный портрет

Grok

Здесь функция редактирования тоже доступна и в бесплатной версии. Можно загрузить готовое изображение и попросить Grok его изменить (например, «добавь горы в виде фона» или «сделай стиль поп-арт»). Но нет ручных инструментов — кистей, масок. Любые изменения вносятся только через текстовые инструкции.

При этом в редакторе есть возможность выбирать готовые шаблоны из трех категорий: стиль, фон и тема (так называются разные забавные добавления типа доспехов, крыльев и прочего). Превратить фотографию в аниме Grok может запросто. А вот с созданием портрета получилось не очень. На контрасте с магией, которую сотворил у нас на глазах ChatGPT, его попытка выглядит еще более неубедительно. 

Grok не выполнил условия, указанные в промпте. Лицо на портрете не соответствует исходному фото мужчины на велосипеде, отсутствует мягкое студийное освещение, а на заднем плане вместо нейтрального фона оказалось еще одно размытое лицо.  

Вместо профессионального студийного портрета Grok создал нечто, совершенно не соответствующее заданным параметрам
Вместо профессионального студийного портрета Grok создал нечто, совершенно не соответствующее заданным параметрам

Ideogram в третьем этапе тестирования не участвовал, редактирование изображений (перерисовка, изменение отдельных элементов, повышение разрешения) доступно только в платной версии — по подписке: $7$- 48 в месяц, в зависимости от тарифа. В бесплатной можно лишь генерировать новые версии, корректируя текстовое описание.

Вывод

Он очевиден. Если вам нужно быстро создать простую картинку с текстом для мемов или незамысловатых иллюстраций, вполне подойдет Ideogram. С забавными картинками, пародиями и аниме справится GROK. Но по точности и качеству изображений лидером среди ИИ-моделей, которые предлагают генерацию изображений бесплатно, остается ChatGPT. Его можно было бы назвать идеальным, если бы не проблема с ориентацией. 

Вы уже оценили материал
Продолжайте читать
SPECIAL
30 апреля, 2025

18 наивных вопросов про роботов-доставщиков на дорогах

Как видят, куда едут, что везут?

Как видят, куда едут, что везут?

18 наивных вопросов про роботов-доставщиков на дорогах

5 необычных путешествий по России на майские и не только

Поездки выходного дня, которые можно организовать самостоятельно

Поездки выходного дня, которые можно организовать самостоятельно

5 необычных путешествий по России на майские и не только

«Дар достоинства живет во многих». Александр Асмолов о своей новой книге

«Психология достоинства. Искусство быть человеком» уже доступна в «Яндекс Книгах»

«Психология достоинства. Искусство быть человеком» уже доступна в «Яндекс Книгах»

«Дар достоинства живет во многих». Александр Асмолов о своей новой книге