Изображение создано с помощью Chat GPT
ИИ-сервисов, умеющих генерировать изображения, — десятки. Но когда нужно просто и быстро сделать картинку, не всегда понятно, за что хвататься. Одни требуют оформить подписку сразу после регистрации. Другие настолько перегружены настройками и «продвинутыми функциями», что перед использованием придется потратить пару часов на освоение простейших операций.
Для нашего обзора мы выбрали три ИИ-модели — ChatGPT, Grok, Ideogram.
Они создают изображения без обязательной подписки и не требуют навыков дизайна и prompt-инженерии. И протестировали их на трех базовых задачах:
Для чистоты эксперимента везде использовали одинаковые промпты, с небольшими поправками — под особенности платформ.
Важно: промпты лучше формулировать на английском, потому что так ИИ-модели точнее понимают нюансы. Текст промпта можно перевести и подкорректировать тут же в чате.
Попробуем создать изображение, скомбинировав два стиля — типичную иллюстрацию из журнала The New Yorker и концепт-арт студии Ghibli. Первый — это минималистичные рисунки со сценами из городской жизни, часто с ироничным или трогательным акцентом. Второй — картинки в духе японской анимации, с мягким светом, приглушенной цветовой палитрой и узнаваемым сочетанием повседневности и фантазии. Сцена: терапевтическая сессия, один человек сидит на диване и говорит, второй — внимательно слушает и делает записи. На стене — постер с надписью «Все будет хорошо» на русском языке. Картинка горизонтальная, с пропорциями 3:2.
После недавнего обновления GPT-4o получил оптимизированный генератор изображений, который умеет создавать картинки по текстовому описанию и значительно превосходит по точности и детализации использовавшийся до этого DALL·E 3 (подробнее об этом читайте тут ). Как это работает? Вводите простое текстовое описание (например, «нарисуй котика») и модель создает изображение.
Еще один плюс — ChatGPT учитывает весь контекст разговора и историю запросов. То есть, когда вы просите создать картинку, не давая точные указания по цвету, теме и форме, ИИ использует параметры изображений, которые вы просили его сгенерировать до этого.
И самое главное — новый генератор изображений умеет правильно отображать кириллицу. Чтобы избежать искажений, указывайте в промпте in clear, readable Cyrillic font и сразу задавайте расположение надписи, например, on a framed wall poster.
Обратите внимание — по умолчанию Chat GPT делает изображения в формате квадрата с соотношением сторон 1:1. Чтобы получить требуемый результат, нужно обязательно встраивать в промпт указание на формат:
Grok 3 использует для создания изображений интеграцию со сторонними ИИ-моделями. Когда вы пишете в чате, что хотите сгенерировать картинку, он выбирает подходящий инструмент по вашему запросу (обычно Flux.1, DALL·E 3 или MidJourney), передает на обработку ваш промпт и возвращает результат.
Это накладывает на определенные ограничения на количество и качество изображений, которые Grok может создать по текстовому запросу. Лимиты заданы условиями бесплатных тарифов сторонних сервисов, к которым он обращается. В среднем это 2-10 изображений в день, с разрешением до 1024×1024 пикселей. Есть лимит и у самого Grok 3 — не более 10 запросов на генерацию изображений каждые 2 часа.
Браузерный генератор изображений, ориентированный на простые текстовые запросы. Работает на основе собственной модели Ideogram 1.0, поддерживает создание как реалистичных, так и стилизованных изображений.
Приложение создает по умолчанию четыре варианта изображения — на выбор. Ограничение: лимит на запросы — до 40 изображений в неделю.
В генератор можно загрузка до трех референсных изображений в качестве ориентира по композиции, цвету или стилю. Есть интеграция текста в изображение, включая кириллицу. Это одна из немногих моделей, в творениях которой надписи на русском языке выглядят читабельно.
В промпт было внесено одно изменение: убрано упоминание разрешения, поскольку оно указывается в интерфейсе под окном ввода.
Цель — создать максимально правдоподобное изображение, сопоставимое с фотографией. Ключевые аспекты: точность передачи движения, детализация мышц и естественные световые отражения. Важно достичь ощущения достоверности через проработку деталей и динамичность сцены. Сцена: спортстмен бежит в ночном городе под дождем. Критически важные элементы: реалистичная анатомия бегуна в движении, естественное размытие среды для передачи скорости, точная передача теней и бликов света на мокром асфальте и в каплях дождя, а также текстуры материалов — от влажной кожи до промокшей ткани.
Хорошая детализация, но есть проблема с ориентацией, которая наметилась еще в предыдущих версиях модели и не побеждена до сих пор. Бегун движется не вдоль, а поперек улицы, что портит впечатление реалистичности. Попытки исправить ситуацию с помощью дополнения к промпту «бегущий вдоль по улице, по ходу движения, а не через улицу» (sprinting along the street, following the direction of the road, not crossing it) не дали результата.
Создание реалистичных изображений со светотенями и динамическими бликами считается главным достоинством генератора изображений Grok. Но, честно говоря, результат не сильно впечатляет. Единственное явное преимущество — Grok правильно ориентировал бегуна вдоль улицы.
Та же проблема с ориентацией, что и у ChatGPT. Несмотря на все попытки скорректировать промпт, Ideogram все равно не выдал изображение с требуемым расположением фигуры. Еще один явный недостаток: не вполне реалистичная передача бега, ноги бегуна ни в одном варианте не касаются дороги, из-за этого при возникает ощущение, как будто фигуру наклеили на фон.
Сложная миссия — трансформировать случайное стрит-фото велосипедиста в нечто вроде студийного портрета. Ключевые технические сложности: изменение ракурса — поворот из профиля в анфас; коррекция освещения — замена естественного уличного света на профессиональное студийное; сохранение идентичности — несмотря на трансформации, человек должен оставаться узнаваемым.
Чтобы добиться нужного результата, необходимо четко указать в промпте:
И очень важно отметить, что изображение на портрете должно воспроизводить лицо на загруженной фотографии (based on the face in the uploaded photo). Именно это указание обеспечивает привязку к исходному изображению, с сохранением индивидуальных черт лица.
Промпт. Create a realistic photographic portrait based on the face in the uploaded photo. Keep the facial features and expression accurate. Show the person from the shoulders up, with natural skin tones, soft lighting, and a neutral blurred background, like a professional studio headshot.
В новом графическом генераторе ChatGPT есть встроенный инструмент ручного редактирования изображений — inpainting, доступный и в бесплатной версии. Чтобы им воспользоваться, нужно проделать несколько шагов:
Однако ручное редактирование с помощью встроенных инструментов доступно только для изображений, созданных в самом чате. Если вы хотите отредактировать свою картинку или фотографию, как в этом случае, указывать, что именно и как изменить, можно лишь в виде текстовых инструкций. Например, «поменяй цвет плаща на крайней фигуре слева».
Здесь функция редактирования тоже доступна и в бесплатной версии. Можно загрузить готовое изображение и попросить Grok его изменить (например, «добавь горы в виде фона» или «сделай стиль поп-арт»). Но нет ручных инструментов — кистей, масок. Любые изменения вносятся только через текстовые инструкции.
При этом в редакторе есть возможность выбирать готовые шаблоны из трех категорий: стиль, фон и тема (так называются разные забавные добавления типа доспехов, крыльев и прочего). Превратить фотографию в аниме Grok может запросто. А вот с созданием портрета получилось не очень. На контрасте с магией, которую сотворил у нас на глазах ChatGPT, его попытка выглядит еще более неубедительно.
Grok не выполнил условия, указанные в промпте. Лицо на портрете не соответствует исходному фото мужчины на велосипеде, отсутствует мягкое студийное освещение, а на заднем плане вместо нейтрального фона оказалось еще одно размытое лицо.
Ideogram в третьем этапе тестирования не участвовал, редактирование изображений (перерисовка, изменение отдельных элементов, повышение разрешения) доступно только в платной версии — по подписке: $7$- 48 в месяц, в зависимости от тарифа. В бесплатной можно лишь генерировать новые версии, корректируя текстовое описание.
Он очевиден. Если вам нужно быстро создать простую картинку с текстом для мемов или незамысловатых иллюстраций, вполне подойдет Ideogram. С забавными картинками, пародиями и аниме справится GROK. Но по точности и качеству изображений лидером среди ИИ-моделей, которые предлагают генерацию изображений бесплатно, остается ChatGPT. Его можно было бы назвать идеальным, если бы не проблема с ориентацией.
Как видят, куда едут, что везут?
Поездки выходного дня, которые можно организовать самостоятельно
«Психология достоинства. Искусство быть человеком» уже доступна в «Яндекс Книгах»