OpenAI Whisper: как нейросеть меняет транскрибацию аудио

Качество автоматического распознавания речи резко выросло после того, как в 2022 году OpenAI опубликовала Whisper — открытую нейросетевую модель для транскрибации. Сегодня Whisper лежит в основе многих сервисов расшифровки аудио и видео, включая myISCRIBE. Разберём, как эта технология работает, насколько она точна на русском языке и чем отличается от конкурирующих решений.

Что такое Whisper и как она работает

Whisper — нейронная сеть архитектуры Transformer, разработанная компанией OpenAI и выпущенная с открытым исходным кодом в сентябре 2022 года. Модель обучена на 680 000 часах многоязычного аудио, собранного из открытых источников в интернете. Это один из крупнейших публично известных обучающих датасетов в области распознавания речи.

Архитектура. Whisper построена по принципу «кодировщик — декодировщик». Кодировщик преобразует аудиосигнал в набор векторных представлений — числовых описаний акустических паттернов. Декодировщик на основе этих представлений генерирует текст токен за токеном, предсказывая следующее слово по контексту предыдущих. Этот подход аналогичен тому, как работают языковые модели вроде GPT, только здесь входной сигнал — звук, а не текст.

Обработка длинных записей. Входной аудиопоток нарезается на 30-секундные сегменты, каждый из которых обрабатывается независимо. Это позволяет расшифровывать записи практически неограниченной длины — от 30-секундного голосового до многочасовой лекции.

Многоязычность. Whisper поддерживает 99 языков и автоматически определяет язык аудио в начале файла. Пользователю не нужно указывать язык вручную — модель сама распознаёт, русский это, английский, французский или любой другой из поддерживаемых. Для смешанных записей с переключением языков это особенно удобно.

Семейство моделей. OpenAI выпустила несколько версий Whisper разного размера. Tiny (39 миллионов параметров) — самая быстрая и лёгкая, base и small — промежуточные, medium (307 миллионов) — хороший баланс скорости и точности, large-v3 (1,5 миллиарда параметров) — наиболее точная версия. Сервисы, ориентированные на качество результата, используют large.

Точность Whisper на русском языке

Русский язык входит в число языков, для которых Whisper показывает стабильно высокую точность. Это объясняется значительным объёмом русскоязычных данных в обучающей выборке — русский широко представлен в интернете, на котором строился датасет.

На чистом аудио без фонового шума, с разборчивым произношением и нейтральным московским акцентом Whisper large демонстрирует точность 93–97%. Для сравнения: профессиональный транскрибер на аналогичном материале показывает 97–99%.

Когда точность снижается:

Фоновый шум — уличные звуки, эхо в помещении, работающий телевизор — ухудшает распознавание. Тем не менее Whisper справляется с умеренным шумом значительно лучше многих конкурентов благодаря обучению на «нечистых» данных из интернета, где шум встречается повсеместно.

Сильный региональный акцент снижает точность, особенно для нестандартных произносительных норм. Технический жаргон, редкие аббревиатуры и специфические имена собственные также иногда распознаются с ошибками.

Очень быстрая речь — выше 200 слов в минуту — может приводить к пропускам слов или их слиянию. Однако большинство естественной речи укладывается в 100–160 слов в минуту, где Whisper работает стабильно.

Для большинства практических задач — расшифровка интервью, лекций, деловых переговоров, подкастов и голосовых сообщений — точность Whisper large вполне достаточна.

Как myISCRIBE использует Whisper

myISCRIBE — Telegram-бот, построенный на основе Whisper large. Это значит, что пользователю не нужно скачивать модель, арендовать GPU или разбираться с командной строкой — достаточно отправить файл или ссылку в чат Telegram и получить текст обратно.

Бот принимает:

Аудиофайлы в форматах MP3, M4A, OGG, WAV, FLAC и других до 20 МБ
Ссылки на YouTube, Vimeo и Rutube
Голосовые сообщения, пересланные из Telegram

Язык определяется автоматически — не нужно настраивать русский или английский вручную. Если запись содержит смешение языков, Whisper адаптируется к каждому сегменту.

Результат возвращается в форматах DOCX (для редактирования), TXT (чистый текст) или PDF (для архивирования). Исходный файл удаляется с серверов myISCRIBE сразу после завершения обработки — данные не хранятся.

Подробнее о том, как расшифровать аудиофайл, можно прочитать в статье Расшифровка аудио в текст. О транскрибации YouTube видео — в статье Как получить текст с YouTube видео.

Сравнение Whisper с другими подходами

Whisper против ручной транскрибации. Профессиональный транскрибер обрабатывает 1 час аудио за 4–6 часов работы и берёт от 500 до 2000 рублей за час записи. Whisper на хорошем GPU обрабатывает 1 час аудио за 2–5 минут. Разница в скорости — 50–100 раз. Человек точнее справляется с экстремально сложным аудио или узкоспециальным жаргоном, но для стандартных записей автоматическая транскрибация на основе Whisper выигрывает по соотношению скорости, цены и качества.

Whisper против Google Speech-to-Text. Google Speech-to-Text — коммерческий API с хорошей точностью на стандартных форматах речи. Требует регистрации в Google Cloud, настройки платёжного метода и программного взаимодействия с API. Whisper — открытая модель, не привязанная к конкретному провайдеру. На записях с акцентированной речью или фоновым шумом многие независимые сравнения показывают преимущество Whisper.

Whisper против Yandex SpeechKit. Yandex SpeechKit оптимизирован для русского языка и хорошо справляется с нейтральным московским произношением. Whisper превосходит его по широте языкового покрытия (99 языков против ограниченного набора у SpeechKit) и часто точнее на смешанных записях или нестандартных акцентах. Для задач исключительно на русском языке оба варианта дают сопоставимые результаты.

Whisper против встроенного распознавания Telegram. Telegram Premium предлагает расшифровку голосовых сообщений прямо в интерфейсе мессенджера — удобно, но доступно только платным подписчикам. Whisper, используемый в myISCRIBE, доступен без подписки и показывает более высокую точность на сложных записях. Кроме того, myISCRIBE поддерживает экспорт в DOCX, TXT и PDF — чего нет в нативной функции Telegram.

Ограничения Whisper и как с ними работать

Как и любая технология, Whisper имеет ограничения, которые важно понимать для правильного использования.

Отсутствие диаризации. Whisper не разделяет спикеров автоматически — если в записи участвуют несколько человек, транскрипция идёт сплошным текстом без пометок «говорит Иван» или «говорит Мария». Для диаризации нужны дополнительные инструменты, такие как pyannote.audio. В myISCRIBE на данный момент диаризация не реализована, поэтому разметку реплик по спикерам придётся делать вручную.

Нет знаков препинания в реальном времени. Whisper расставляет знаки препинания автоматически на основе интонационных пауз, но это не совсем то же самое, что ручная пунктуация. Перед публикацией или отправкой важного документа результат стоит вычитать.

Технические термины и имена. Узкоспециализированный жаргон, редкие аббревиатуры и нестандартные имена собственные иногда вызывают ошибки. Модель выбирает наиболее вероятное слово на основе статистического контекста, и для слов, которые редко встречались в обучающей выборке, может ошибиться.

Требования к железу для локального запуска. Whisper large требует GPU с минимум 10 ГБ VRAM для комфортной работы. На обычном CPU обработка 30-минутного файла занимает 15–20 минут — неудобно для регулярной работы. Именно поэтому облачные сервисы вроде myISCRIBE, запускающие Whisper на специализированных серверах, дают значительное преимущество в скорости рядовому пользователю.

Будущее распознавания речи

Whisper — не последнее слово в технологии распознавания речи, но на сегодня это одна из лучших открытых моделей. OpenAI продолжает развивать технологию: вышедшая в 2023 году версия large-v3 показывает заметно меньший процент ошибок на нескольких языках, включая русский.

В более широкой экосистеме распознавания речи активно развиваются модели с возможностью разделения спикеров, адаптации под отраслевой словарь и работы в режиме реального времени с минимальной задержкой. Frontier-модели вроде GPT-4o Audio уже умеют понимать тон и эмоции, а не только слова.

Для пользователей сервисов транскрибации это означает постепенно растущее качество при той же цене — модели улучшаются, а инфраструктура для их запуска дешевеет.

Чтобы попробовать транскрибацию на основе Whisper, отправьте аудиофайл или ссылку на видео в @iscribe888_bot — без регистрации и установки дополнительных программ.