Из-за головокружительной скорости развития искуственного интеллекта складывается классическая ситуация парадокса выбора. Новых предложений так много, а информация о них настолько хаотична, что выбрать подходящий вариант становится все сложнее. Чтобы решить проблему, эксперт по применению ИИ Итэн Молик предлагает сузить рамки выбора. Мы пересказали его свежий обзор шести самых популярных ИИ-моделей, включая, конечно, нашумевший DeepSeek.
Сейчас разработкой ИИ занимаются более 1800 компаний. Чтобы не потеряться в этом океане возможностей, Молик рекомендует сосредоточиться на крупных игроках: в отличие от стартапов, они гарантируют преемственность и стабильность.
Новая, мощная китайская модель DeepSeek появилась на рынке совсем недавно. Тем не менее Молик авансом включил ее в список стабильных решений. В быстро развивающемся мире ИИ, объясняет он, иногда стоит делать исключения для особенно перспективных новичков, демонстрирующих выдающийся потенциал.
Чтобы выбрать «свою» ИИ-модель из того, что предлагают ведущие разработчики, Молик рекомендует ориентироваться на шесть критериев.
Мобильное приложение: есть (доступно в российском App Store).
Доступ в интернет: есть, но доступ к англоязычным сайтам может быть ограничен, особенно если они находятся за пределами китайского сегмента сети.
Умение создавать изображения: нет.
Живой режим: нет.
Конфиденциальность: под вопросом; не предлагает настроек приватности и не раскрывает, как именно обрабатывает пользовательские данные.
Способность к рассуждению — главный козырь DeepSeek. «Думать» для ИИ — значит сначала разобрать проблему на части, затем найти решение для каждой составной проблемы, проверить альтернативы и сложить выбранные решения в конечный вывод. Прежде чем прийти к решению, ИИ-модель прокручивает мыслительный процесс, но обычно мы его не видим — нам показывают только финальный вывод.
DeepSeek — исключение из этого правила. Он позволяет заглянуть за кулисы своего мыслительного процесса, и выглядит это удивительно по-человечески.
Представьте себе профессора, который в ответ сложный вопрос начинает бормотать себе под нос: «Так, давайте разберем, что именно студент спрашивает?» DeepSeek тоже «думает вслух», предваряя ответ анализом вашего запроса: «Пользователь просит меня изучить данные о продажах. Судя по контексту и формату файла, это ежемесячные отчеты. Мне нужно не просто показать цифры, а найти значимые тренды. Пожалуй, начну с базовой статистики, а потом перейду к сезонным трендам... »
В зависимости от ваших личных предпочтений эта особенность может показаться очаровательной или раздражающей. Но если вы решаете многоступенчатые логические задачи, прозрачность мышления несет практическую пользу. Вы видите, правильно ли ИИ понял поставленную задачу. Можете скорректировать ход его мыслей, если он пошел не в том направлении. Лучше понимаете, почему он пришел к определенным выводам. Учитесь у него методике анализа проблем.
Эта инновация DeepSeek настолько впечатлила технологическое сообщество, что заставила других разработчиков задуматься о том, как сделать процесс мышления более более прозрачным для пользователей.
Мобильное приложение: есть (недоступно в российском App Store); по мнению Итэна Молика, у Chat GPT лучшее приложение на рынке — оно предлагает максимум возможностей, включая голосовой ввод и работу без интернета в Pro-версии.
Доступ в интернет: есть, но для поиска информации используется система Bing от Microsoft, что накладывает ряд ограничений. Среди них — фильтрация результатов, приоритет определенных ресурсов; задержка индексации свежих страниц; ограниченный доступ к контенту (многие статьи и исследования остаются недоступными) и региональные блокировки.
Способность к рассуждению: ChatGPT (особенно версии GPT-4o и o1) показывает глубокое логическое мышление и умеет разбивать сложные задачи на этапы. В отличие от DeepSeek, он делает это «про себя» — по умолчанию процесс анализа скрыт от пользователя. Но если попросить ИИ «думать вслух» (let’s think step by step), он тоже может объяснить свои выводы шаг за шагом.
Умение создавать изображения: умеет редактировать и дорабатывать картинки по подсказкам (Inpainting), но иногда выдает размытые изображения вместо лиц и искажает текст, особенно если алфавит не латинский.
Конфиденциальность: дает возможность отказаться от использования данных для обучения. Но можно создавать персонализированные службы, заточенные под конкретные сценарии, и включать в них функцию запоминания контекста.
Живой режим — уникальная функция Chat GPT. В мобильном приложении он включается нажатием маленькой иконки справа от строки ввода. «Обычно OpenAI любит "зарывать" важные функции в интерфейсе», — замечает Молик. Опция доступна при наличии платной подписки. Живой режим означает, что ИИ общается с вами как реальный собеседник: слышит голос, видит изображение и отвечает. Причем не механически озвучивает ответы, а реагирует на интонацию и даже может вас перебить. Кроме того, в живом режиме ChatGPT может использовать «мультимодальное зрение» — анализировать изображение в реальном времени.
Вы направляете камеру смартфона на объект или загружаете в чат его фото, и модель анализирует все детали изображения, включая текст. Например, если показать ему шахматную доску с расставленными фигурами, он подскажет следующий ход.
Система не идеальна: когда Молик искал с ее помощью рейтинги настольных игр, Chat GPT перепутал игру с ее дополнением. Но в целом живой режим создает эффект естественного общения: «Как будто разговариваешь с реальным другом, который много знает, но иногда путает детали».
Мобильное приложение: есть (недоступно в российском App Store).
Доступ в интернет: нет; у него есть доступ только к тем данным, на которых он был обучен или которые предоставляете ему вы сами.
Живой режим: нет.
Умение создавать изображения: нет.
Конфиденциальность: по заявлению разработчиков, вообще не используют пользовательские данные для обучения. При этом предлагает опцию настройки стилей и проектов, позволяющую при желании обучать модель на основе пользовательских данных.
Способность к рассуждению: Claude (в версии 3.5 Sonnet) демонстрирует преимущества в контекстуальном понимании и гибкости мышления. Он часто формулирует более «человеческие» ответы и способен глубже анализировать тонкие нюансы текста. В отличие от ChatGPT, который иногда перескакивает с темы на тему, Claude выстраивает плавные переходы между опорными мыслями. В целом он больше ориентирован на креативное мышление, чем на жесткую логику. И поэтому обычно лучше других моделей справляется с творческими задачами типа перевода, пересказа и генерирования идей.
Мобильное приложение: есть (недоступно в российском App Store); кроме того, интегрирован в операционную систему Windows, доступен по нажатию иконки на панели задач или через сочетание клавиш «Win + C».
Доступ в интернет: есть; использует для поиска Bing, а потому не всегда обновляет информацию в реальном времени и может упускать свежие данные.
Живой режим: нет.
Умение создавать изображения: есть; использует для генерирования картинок нейросеть DALL·E, как и ChatGPT, но предоставляет меньше возможностей для редактирования.
Конфиденциальность: пользовательские данные не используются для обучения языковой модели. Для дополнительной гарантии Copilot не кэширует личный контент и запросы.
Способность к рассуждению: умеет анализировать данные и компьютерный код, но не способен на креативное мышление. Если в обучающих данных есть системные ошибки или устаревшие подходы, он их повторяет. Простые логические последовательности Copilot улавливает, но сложные многошаговые задачи ему не под силу. Он может предложить исправление ошибки, но не всегда объясняет, почему именно это решение верное. Незначительное изменение формулировки запроса может привести к совершенно разным результатам, что снижает предсказуемость. В общем, это хороший ассистент для решения задач средней сложности, но не полноценный мыслитель.
Мобильное приложение: есть (недоступно в российском App Store); кроме того, встроен в Google Search.
Доступ в интернет: есть; использует для поиска в интернете Google Search, но его результаты могут быть ограничены и отфильтрованы. Кроме того, модель склонна упрощать ответы, не указывая источники.
Живой режим: пока нет, но может появиться в ближайшее время; разработчики Google уже продемонстрировали тестовую версию.
Конфиденциальность: Google может использовать пользовательские данные для улучшения модели Gemini, но с определенными оговорками: вся информация анонимизируется и не привязывается к учетной записи перед использованием для обучения.
Способность к рассуждению: есть версия Gemini 2.0 Flash с расширенными возможностями рассуждения. Но, по оценке Итэна Молика, она пока уступает DeepSeek и ChatGPT (o1). Лучше всего Gemini проявляет себя как «движок» умного блокнота NotebookLM — это веб-приложение Google, которое позволяет создавать проекты и загружать в них разнообразные данные: тексты, аудиозаписи, видео, электронные книги. После загрузки материалов вы можете задавать вопросы и получать ответы на основе содержимого этих файлов. NotebookLM анализирует загруженные данные и предоставляет структурированные ответы, помогая эффективно работать с информацией. Полезный инструмент для исследователей, студентов и других профессионалов, работающих с большими объемами информации.
Умение создавать изображения: лидер в создании изображений, превосходящий конкурентов по уровню реализма и детализации. «Если вам просто нужно нарисовать выдру верхом на розовом надувном единороге посреди бассейна, с этим справится почти любая модель. Но если важна возможность контролировать весь процесс генерации и редактировать нюансы, выбирайте Gemini», — советует Молик. Кроме того, это единственная языковая модель, которая умеет полноценно работать с видео.
Читать по теме. Человеческое, слишком человеческое. Как жить в эпоху ИИ
Мобильное приложение: есть, но пока доступно только в США.
Доступ в интернет: есть; ищет информацию в X (Twitter) и некоторых внешних источниках, но часто ограничивается теми данными, которые доступны в «родной» соцсети, что может сужать картину мира.
Живой режим: нет.
Конфиденциальность: по умолчанию все пользовательские данные, включая твиты, сообщения, запросы и результаты работы с Grok, могут использоваться для обучения и доработки моделей компании xAI. Но, по заявлению разработчиков, эту опцию можно отключить в настройках приватности.
Умение создавать изображения: создает фотореалистичные картинки на основе текстовых запросов с помощью встроенной модели генерации изображений Aurora. Может редактировать уже готовые загруженные фотографии и рисунки. В отличие от многих других моделей, Grok успешно справляется с добавлением и отображением текста и логотипов.
Еще одна его «фича»: за счет минимальных ограничений на генерируемый контент Grok может создавать изображения, которые другие ИИ-модели обычно блокируют, например использовать фотографии реальных людей и персонажей, защищенных авторским правом.
Лучшим универсальным вариантом для «рядовых пользователей», по мнению Молика, все еще остается Chat GPT. Хотя новичок DeepSeek уже наступает ему на пятки.
Выбор идеального ИИ-помощника во многом определяется и вашими конкретными потребностями. Для творческой работы с текстом лучше всего подходит Claude. Если же вы экспериментируете с изображениями и видео, стоит обратить внимание на Gemini.
Немаловажную роль играет и цифровая экосистема, в которую вы интегрированы. Активным пользователям Microsoft будет комфортно с Copilot, а подписчики X могут извлечь дополнительную выгоду из доступа к Grok, который включен в подписку.
Однако есть еще один интересный аспект выбора, который можно назвать человеческим фактором. У каждой версии искусственного интеллекта — свой характер и свои причуды, пишет Итэн Молик. Стоит познакомиться с разными ИИ-ассистентами, чтобы найти того, с кем у вас возникнет настоящий контакт. Порой комфортное общение может оказаться важнее широкого функционала и вы будете готовы выбрать модель с более скромными возможностями, но близким вам стилем коммуникации.
Микронавыки наслаждения от писателя Саши Чапина
Исследовали основные этапы процесса: от завода до доставки
Профессор Йельского университета Лори Сантос о том, как гарантированно повысить удовлетворенность жизнью