Работа
13 февраля, 2025
Техника

5 лучших расшифровщиков аудио

Тестируем популярные AI-модели

5 лучших расшифровщиков аудио

Изображение создано в ChatGPT

Превратить аудио в текст — задача не такая тривиальная, как может показаться на первый взгляд. Особенно когда речь идет о длинных интервью, групповых дискуссиях или записи разговора на шумной улице или в кафе. Мы решили проверить, как с этой задачей справляются пять популярных расшифровщиков, включая одного телеграм-бота. Для теста мы использовали три типа записей: разговор двух человек в тихой обстановке, оживленное обсуждение с пятью участниками и аудио-заметки, сделанные в шумной обстановке. Основные критерии оценки —  скорость и правильность расшифровки, точность разбивки по спикерам и, конечно, цена. В тестовых записях были и простые разговорные фразы, и специальные термины, и имена, и немного сленга — все то, с чем приходится работать в реальной жизни. 

Писец

Начало разговора с иммунологом, в котором расшифровщик Писец автоматически называет журналиста и спикера Вини-Пухом и Пятачком и неправильно понимает несколько важных слов (подчеркнуты красным): респираторными, простыл, перестала работать, химиотерапия, вылезти.
Начало разговора с иммунологом, в котором расшифровщик Писец автоматически называет журналиста и спикера Вини-Пухом и Пятачком и неправильно понимает несколько важных слов (подчеркнуты красным): респираторными, простыл, перестала работать, химиотерапия, вылезти.

Онлайн-сервис расшифровки, работающий с аудиозаписями и видеофайлами во всех популярных форматах. Понимает записи на русском и английском. 

Для расшифровки используется система, собранная из трех моделей. Первая модель, обученная на основе аудиокниг, подкастов и записей разговоров, разбивает звуковую запись на маленькие фрагменты и определяет в них отдельные звуки и слова. Вторая — сверяет полученные слова с базой из 47 миллионов русских текстов и исправляет явные ошибки. Третья — просматривает весь текст целиком, анализирует его содержание и исправляет предполагаемые ошибки исходя из контекста. Результат вы получаете в виде файла в формате DOCX. 

Сколько стоит

Бесплатно можно расшифровать записи длительностью до 10 минут, но даже в этом случае обработка может занять до 24 часов. Файлы обрабатываются в порядке живой очереди: чем больше пользователей, тем больше придется ждать. Для профессиональных задач это явно не подходит. 

Платные тарифы предлагают доступ к высокопроизводительным выделенным серверам для быстрой обработки файлов и продаются пакетами: 

  • 5 часов — 1290 рублей;
  • 10 часов — 2100 рублей;
  • 15 часов —  2570 рублей.

На всех платных тарифах можно одновременно расшифровывать несколько файлов — конкретное число зависит от размера. Если речь идет о коротких записях, сервис сможет синхронно расшифровать и пару десятков. Если длительность записей превышает час, сервис справится от силы с двумя файлами одновременно, что тоже неплохо. 

Результаты теста 

Скорость. 15-минутная запись с двумя спикерами и аудио-заметки в шумной обстановке сервис обработал за несколько минут. На расшифровку 30-минутной записи с пятью участниками потребовалось около 10 минут. 

Правильность расшифровки. Во всех трех случаях контекст передается адекватно, но результат требует тщательной проверки и доработки. Самые заметные недостатки: 

  • точность расшифровки сильно страдает в условиях шума, имена и названия могут превратиться в бессмысленный набор цифр и букв; 
  • вне зависимости от качества и типа записи, сервис спотыкается на расшифровке терминов и часто упрощает или пропускает сложные конструкции; 
  • часто путает спикеров, особенно когда говорят одновременно несколько человек; 
  • при быстром обмене репликами допускает грубые ошибки в понимании, например «надо привести» — вместо «рад приветствовать»;
  • при расшифровке разговора с несколькими участниками фразы чаще не согласованы и составлены наугад из подобранных по созвучию слов, например вместо «сделал суперсет на трицепсы» «сделали суп из цедры на трицепсы»; 
  • склонен разбивать длинные фразы на короткие, при этом допуская  пропуски и теряя смысл; 
  • сленговые выражения в большинстве случаев заменяются похожими по звучанию (но не по смыслу) словами. В нашем случае «на паленых лекарствах» превратилось в  «палео лекарствах»; 
  • может интерпретировать числа и даты с ошибками, например «много лет» — вместо «более 20 лет»; 
  • в транскрипции много грамматических и пунктуационных ошибок; названия стран и организаций отображаются строчными буквами. 

Точность разбивки по спикерам.  Четко различает говорящих, но присваивает им шуточные имена по умолчанию (Винни-Пух, Пятачок, и так далее), что далеко не всегда уместно и требует дополнительной работы по замене. 

Teamlogs

Teamlogs позволяет редактировать расшифрованный текст в окне предсмотра, одновременно прослушивая запись.
Teamlogs позволяет редактировать расшифрованный текст в окне предсмотра, одновременно прослушивая запись.

Онлайн-сервис, умеющий работать с видеофайлами и аудиозаписями разных форматов. Специально обучен для расшифровки записей на русском языке. Система работает в четыре этапа. Сначала основная модель, обученная на 100 тысячах часов русской речи, преобразует звук в текст. Затем включается модель определения голосов — она может различать до шести спикеров. Третий этап — проверка слов по словарю и исправление очевидных ошибок. На последнем этапе специальная модель расставляет знаки препинания и разбивает текст на предложения. Результаты доступны прямо в браузере, можно скачать в нескольких форматах: TXT, SRT и DOCX. 

Сколько стоит

Первые 15 минут расшифровки бесплатны для новых пользователей. Дальше действует единый тариф — шесть рублей за минуту записи. Есть корпоративные тарифы для больших объемов, цена обсуждается индивидуально. Дополнительные возможности на платном тарифе: одновременная обработка нескольких файлов (до 10), автоматическое создание конспекта, выделение ключевых слов. 

Результаты теста

Скорость. Расшифровку выполняет быстрее, чем Писец. 15-минутный диалог и аудиозаметку обработал примерно за две минуты. На получасовой разговор с пятью участниками ушло чуть больше пяти минут. 

Правильность. Точность расшифровки достаточно высокая. Короткие числа, термины, сложные конструкции, сленг, имена и названия передаются в большинстве случаев корректно. Но встречаются характерные ошибки. 

  • Может неправильно воспроизводить длинные числа: например, при расшифровке нашего тестового диалога «2025 год» превратился в «1925-й».
  • При передаче длинных фраз со сложной конструкцией логика может теряться. 
  • При расшифровке шумных фрагментов точность снижается, хотя контекст передается верно. 

Точность разбивки по спикерам. Четко определил пятерых участников и правильно разметил их реплики.  

Sonix

Так выглядит расшифрованный текст в окне предпросмотра и редактирования Sonix.
Так выглядит расшифрованный текст в окне предпросмотра и редактирования Sonix.

Сервис расшифровки, умеющий обрабатывать не только загруженные аудио и видеофайлы разных форматов, но и видеозаписи по ссылкам, например, с ютуба. Поддерживает интеграцию с Zoom, Dropbox и Zapier, что  делает его удобным инструментом для работы с мультимедийным контентом. Понимает более 40 языков, включая русский, и использует для расшировки Whisper  — модель распознавания речи от OpenAI, разработавшей Chat GPT. Отдельная языковая модель специализируется на вычленении спикеров и может различать до пяти голосов. Обе модели работают параллельно, что ускоряет обработку. 

Сколько стоит

Есть пробный период — 30 минут бесплатно для новых пользователей (при регистрации нужно указывать телефон, так что просто использовать каждый раз новый имейл не получится). Дальше придется подключить один из платных тарифов. На всех тарифах оплата принимается только с иностранных карт. 

  • Стандартный. Без абонентской платы. Стоимость расшифровки— $10 за час. 
  • Премиум. $22 в месяц за пользователя при помесячной оплате или $16,50 в месяц при оплате за год ($198 за год). Подписка включает такие опции, как дополнительное облачное хранилище — от 100 GB, добавление своих словарей, инструменты анализа текста, автоматическое создание саммари, перевод на другие языки, поиск по готовым расшифровкам. При этом за транскрипцию все равно нужно платить, но в два раза меньше — $5 за час. 
  • Корпоративный. Предназначен для крупных организаций. Цены и условия обсуждаются индивидуально.

Результаты теста

Скорость. Работает стабильно и быстро. Потратил на расшифровку каждой записи, вне зависимости от длительности, качества и количества участников, примерно две минуты.  

Правильность. Хорошо распознает термины, имена, названия и устойчивые понятия типа «зона комфорта», которые часто вызывают проблемы у конкурентов. Но есть нюансы. 

  • Технические или медицинские понятия типа «абдоминальное ожирение» могут быть интерпретированы неточно. 
  • При расшифровке шумных фрагментов теряются детали: в нашем случае некоторые слова были пропущены или заменены на синонимы.

Точность разбивки по спикерам. При расшифровке разговора двух людей не допускает ошибок. Если спикеров больше, может путать принадлежность начальных и конечных реплик, но не критично. 

Whisper

Начало разговора с иммунологом в расшифровке модели Whisper в окне Терминала MacBook Air. Модель Medium разбивает фразы на двухсекундные фрагменты и начинает каждую с временной метки. Ниже — этот же фрагмент, разбитый по спикерам и очищенный от временным меток с помощью Claude AI.
Начало разговора с иммунологом в расшифровке модели Whisper в окне Терминала MacBook Air. Модель Medium разбивает фразы на двухсекундные фрагменты и начинает каждую с временной метки. Ниже — этот же фрагмент, разбитый по спикерам и очищенный от временным меток с помощью Claude AI.

Кросс-платформенная модель, которая может работать на Windows, Linux и Mac. Поддерживает более 100 языков, включая русский, и умеет автоматически определять язык записи. В отличие от других сервисов, не разделяет обработку текста на этапы, а использует «сквозной подход», то есть параллельно преобразует звук в текст, разбивает на предложения и расставляет знаки препинания. Это позволяет избежать потери смысла. Обучен на 680 тысячах часов речи из разных источников, включая видео, подкасты и аудиокниги.  

Сколько стоит 

Whisper предлагает несколько версий модели. Базовые (Tiny, Base, Small) — быстрые, бесплатные, но недостаточно точные. (По нашему опыту, они чаще всего выдают ошибки или вообще не работают.) Продвинутые (Medium, Large) —  точные, но более медленные и платные. Сам Whisper — это не приложение, а система распознавания речи. Разработчики приложений, использующие эту модель, платят за обработку одной минуты аудиозаписи $0,006. Сколько при этом они захотят получить от вас, зависит от конкретного приложения. Например, в Whisper Transcription для Mac, которой пользовались мы, месячная подписка стоит 699 рублей. А в Whisper Transcribe для Windows — $19.99. 

Можно использовать Whisper и совершенно бесплатно, установив его напрямую на свой компьютер. Правда, для этого придется немного поколдовать с терминалом. Вот, например, видеоинструкция для Mac OS (для просмотра может понадобиться замена российского IP на иностранный). 

Результаты теста 

Скорость. Зависит от ресурсов вашего компьютера. Модели Medium и Large, обеспечивающие максимальное качество расшифровки, задействуют до 10 гигабайт оперативной памяти. В нашем тесте на Macbook Air с процессором M3 и 8 гигабайтами памяти расшифровка заняла примерно столько же времени, сколько длилась сама запись. 

Правильность. Whisper в платной версии, начиная с модели Medium, дает лучший результат среди конкурентов при обработке шумных записей, отлично распознает научные понятия, технические термины, даже неологизмы. Адекватно передает имена и названия. Хорошо справляется с разговорной речью и сленговыми выражениями. И без потерь транскрибирует длинные предложения со сложной конструкцией. Его можно было бы назвать идеальным расшифровщиком, если бы не проблема с разбивкой по спикерам. 

Сам Whisper не поддерживает автоматическую разбивку текста по спикерам. Для этого требуется дополнительная обработка с использованием Chat GPT, DeepSeek или другой нейросети. Сами они расшифровать аудиозапись не могут, но неплохо справляются с разбивкой по ролям уже расшифрованного текста. 

SlyshuPishu

Вместе с расшифровкой текста бот предлагает опцию перевода на английский и обработки с помощью Chat GPT-4.
Вместе с расшифровкой текста бот предлагает опцию перевода на английский и обработки с помощью Chat GPT-4.

Бот-расшифровщик в Telegram, работающий на базе Whisper от OpenAI. Какая именно модель в нем используется, разработчики умалчивают. Судя по скорости и качеству расшифровки, это одна из облегченных версий. Вы можете послать боту аудиозапись, видеофайл (размером до 400 МБ и длительностью до 150 минут) или ссылку на YouTube — и получить расшифровку формате TXT. 

Сколько стоит

Первые 30 минут — бесплатно. Дальше: 

60 минут — 129 рублей,

120 минут — 199 рублей,

300 минут — 399 рублей.

Можно оплатить «валютой» Telegram — звездами. Включены дополнительные опции: создание саммари, перевод и дополнительная обработка с помощью Chat GPT. 

Результаты теста 

Скорость. 15-минутная запись диалога расшифрована примерно за две минуты; столько же понадобилось для обработки аудио-заметок, сделанных в шумных условиях на улице. На расшифровку получасового разговора с пятью участниками система потратила около пяти минут. 

Правильность. Выдает текст, который в целом смотрится как качественно выполненная транскрипция, но при сравнении с оригиналом обнаруживается ряд ошибок и неточностей, типичных для облегченных моделей Whisper. 

  • Упрощает или искажает специальные термины. 
  • Неточно передает редкие слова и сленг. 
  • Может терять контекст в длинных предложениях. 
  • Иногда некорректно разделяет или объединяет предложения. 
  • Часто произвольно меняет структуру исходных предложений. 
  • В шумных условиях пропускает слова. 

Точность разбивки по спикерам. Стабильно различает говорящих, редко путает реплики.

Что выбрать

Ориентируясь на результаты нашего теста, вы можете выбрать сервис, который подходит вам больше всего. Мы бы рекомендовали присмотреться к трем вариантам.

  1. Whisper — если вам нужна максимальная точность расшифровки, особенно при работе со сложными текстами и шумными записями. И если взамен вы согласны ждать результата дольше и самостоятельно разбивать диалоги на спикеров.
  2. Teamlogs — если вы часто работаете с русскоязычными записями интервью и групповых обсуждений и не против лишний раз проверить точность дат и терминов.
  3. SlyshuPishu — если нужно быстро расшифровать несложный текст через телефон и получить оптимальный результат. 
Вы уже оценили материал
Продолжайте читать

Рассылка Reminder «15 полезных ссылок»: выпуск 75

Парадокс усилий, тренировка «12-3-30» и час со смартфоном в постели
Сознание
1 апреля, 2025
Новое

Может ли ИИ заменить психотерапевта? Новое исследование дает ответ

Общение с искусственным интеллектом снижает проявления депрессии на 51%

Общение с искусственным интеллектом снижает проявления депрессии на 51%

Может ли ИИ заменить психотерапевта? Новое исследование дает ответ
SPECIAL
10 марта, 2025

Обучение для взрослых: как начать и не бросить

14 приемов, проверенных наукой и лабораторией Яндекс Практикума

14 приемов, проверенных наукой и лабораторией Яндекс Практикума

Обучение для взрослых: как начать и не бросить