MP3 в текст онлайн: как расшифровать аудиофайл за 2 минуты
Нужно получить текст из аудиозаписи. Интервью, лекция, запись совещания, голосовое сообщение — неважно. Вопрос один: как превратить MP3 в читаемый текст, желательно быстро и без регистрации где-то ещё.
Разберём способы по порядку — от бесплатных до платных, от простых до профессиональных.
Какие форматы поддерживают сервисы расшифровки
Большинство современных сервисов работают с широким набором форматов:
- MP3 — самый распространённый, принимают все
- M4A — стандарт iPhone и iOS-диктофонов
- WAV — высококачественный, большой размер
- OGG / OPUS — голосовые из Telegram и WhatsApp
- WEBM — аудио из браузерных записей
- FLAC — без потерь, студийный формат
- MP4 / MOV / AVI — видеофайлы с аудиодорожкой
Если ваш файл в каком-то редком формате — конвертируйте в MP3 через онлайн-конвертер. Это занимает минуту.
Ограничение на размер файла
Здесь есть важный нюанс. Telegram-боты ограничены 20 МБ (ограничение Telegram API). При типичном битрейте MP3 128 кбит/с это около 20 минут аудио.
| Длительность | Размер MP3 (128 кбит/с) | Влезает в TG-бот |
|---|---|---|
| 10 мин | ≈ 9 МБ | ✅ |
| 20 мин | ≈ 18 МБ | ✅ |
| 30 мин | ≈ 27 МБ | ❌ |
| 60 мин | ≈ 55 МБ | ❌ |
Для файлов больше 20 МБ — нужно либо нарезать на части, либо использовать веб-сервис без ограничений.
При низком битрейте (64 кбит/с) в 20 МБ влезет около 40 минут. Голосовые записи с телефона обычно пишутся именно с таким битрейтом — что выгоднее для работы с ботами.
Способ 1 — Telegram-бот (самый удобный)
Самый быстрый способ для файлов до 20 МБ.
Схема:
- Откройте @iscribe888_bot в Telegram
- Отправьте MP3-файл прямо в чат
- Через 1–3 минуты получите DOCX с расшифровкой
Бот возвращает файл в формате DOCX — готов для редактирования, цитирования, отправки клиенту. Дополнительно доступны TXT и PDF.

Цены:
- 99 ₽ — 60 мин (1.65 ₽/мин)
- 499 ₽ — 500 мин (1 ₽/мин)
- 999 ₽ — 1500 мин (0.67 ₽/мин)
- Минуты не сгорают — действуют бессрочно
Для одноразового использования — хватит стартового пакета. Для регулярного — выгоднее брать 999 ₽.
Бонус: AI Саммари бесплатно. После расшифровки можно нажать кнопку и получить краткое содержание — полезно для длинных записей.
Способ 2 — Whisper через Hugging Face (бесплатно, есть ограничения)
OpenAI Whisper — модель, на которой работает большинство коммерческих сервисов — доступна бесплатно через Hugging Face Spaces.
Как: найдите в поиске "Whisper Hugging Face Space" → загрузите файл → получите текст.
Проблемы:
- Очереди в часы пик — ожидание 5–15 минут
- Ограничение размера файла (зависит от конкретного Space)
- Нет форматированного DOCX — только сырой текст
- Периодически недоступно
Подходит если нужно один раз расшифровать что-то небольшое и нет желания платить.
Способ 3 — Локальный Whisper (для технических пользователей)
Если у вас есть Python и немного терпения — Whisper можно запустить локально на своём компьютере. Это полностью бесплатно.
pip install openai-whisper
whisper recording.mp3 --language Russian
Результат — текстовый файл рядом с аудио.
Минусы:
- Требует установки Python и зависимостей
- Нет GPU — скорость медленная (час аудио = час обработки на CPU)
- Нет форматирования DOCX
- Каждый раз нужно открывать терминал
Для разработчиков и тех кто хочет всё под контролем — хороший вариант. Для всех остальных — боты удобнее.
Способ 4 — Загрузка файла на веб-сервис
Если файл больше 20 МБ и нарезать не хочется, нужен веб-сервис:
- Conspecto — принимает файлы до 8 ГБ, поддерживает MP3 и большинство форматов. Цена от 5 ₽/мин.
- GuruScribe — быстрое распознавание, веб-интерфейс. Один из самых быстрых сервисов на рынке.
- Яндекс SpeechKit — облачный API, нужна настройка. Для бизнеса.
Веб-сервисы удобны для больших файлов, но обычно дороже Telegram-ботов.
Что делать с большими файлами (больше 20 МБ)
Три варианта:
1. Нарезать на части. Бесплатно через MP3Cut.ru или Audacity. Каждую часть загрузить отдельно в бот. Неудобно, но работает.
2. Снизить битрейт. Конвертируйте MP3 с высоким битрейтом в 64 кбит/с — качество для речи достаточное, размер уменьшится в 2–3 раза.
3. Использовать веб-сервис. Conspecto принимает файлы до 8 ГБ без нарезки.
Диаризация: кто что говорил
Если в записи несколько человек — интервью, совещание, круглый стол — полезна функция диаризации. Бот разбивает текст по спикерам.
Результат вместо:
"Значит договорились. Да окей. А вот этот вопрос как решаем..."
Получаете:
Спикер 1: Значит договорились. Спикер 2: Да, окей. Спикер 1: А вот этот вопрос как решаем...
Диаризация в @iscribe888_bot стоит +1 ₽/мин сверх тарифа. Включается кнопкой после стандартной расшифровки.
Подробнее о том как это работает: расшифровка с разбивкой по спикерам.

Качество расшифровки
На что влияет точность распознавания:
- Чистота записи — один говорящий, тихий фон, хороший микрофон = лучший результат
- Скорость речи — быстрая речь распознаётся чуть хуже
- Диалект и акцент — стандартный русский распознаётся отлично
- Профессиональная лексика — технические термины иногда искажаются
Для типичных деловых записей, интервью и лекций — точность 90–97%.
Попробовать бесплатно
@iscribe888_bot даёт 20 минут бесплатно всем новым пользователям — хватит для нескольких записей средней длины.
Сайт: myiscribe.ru
Читайте также: как расшифровать голосовые из WhatsApp, лучший бот для расшифровки в Telegram.
Попробуйте транскрибировать своё видео прямо сейчас
Открыть @iscribe888_bot