Расшифровка аудио с разбивкой по спикерам: диаризация в Telegram-боте
Вы получили расшифровку часового интервью — и видите сплошной текст без единого имени. "Да, мы готовы к этому проекту." "Когда планируете запуск?" "В третьем квартале." Кто это говорит? Не понятно. Чтобы разобраться, нужно открыть запись, перемотать к нужному моменту и вручную расставить "Иван:", "Мария:", "Интервьюер:" — для часового файла это ещё час работы поверх расшифровки.
Именно для этого существует диаризация. Это когда система сама определяет, кто что сказал, и размечает каждую реплику с указанием говорящего и таймкода.
В этой статье разберём, как работает диаризация, кому она нужна, и как получить расшифровку с разбивкой по спикерам прямо в Telegram — без регистрации и сложных настроек.
Что такое диаризация и как она работает
Диаризация спикеров (от англ. diarization) — это автоматическое определение того, кто и когда говорит в аудиозаписи.
Нейросеть анализирует голосовые характеристики каждого говорящего: тембр, интонацию, ритм речи. Она не знает имён участников, но различает их как уникальные "голосовые отпечатки". Каждый раз, когда начинает говорить новый человек или возобновляет уже знакомый голос, система помечает переключение.
В результате вместо безымянного текста получается структурированный диалог:
Спикер 1 [00:00–01:23]: Расскажите, пожалуйста, о вашем опыте в этой сфере.
Спикер 2 [01:23–03:10]: Я работаю в digital-маркетинге около семи лет...
Спикер 1 [03:10–03:45]: А с какими инструментами работаете чаще всего?
Диаризация не заменяет расшифровку — она дополняет её разметкой по говорящим. Сначала система переводит речь в текст, затем разбивает этот текст по репликам с указанием спикера и временного отрезка.
Кому нужна диаризация
Расшифровка с разбивкой по спикерам нужна везде, где несколько человек говорят в одной записи:
Журналисты и редакторы. Интервью с одним или несколькими источниками. Без диаризации приходится вручную отмечать, где заканчивается вопрос и начинается ответ. С диаризацией это уже готовый черновик материала.
HR-специалисты и рекрутеры. Запись собеседования с несколькими участниками: HR, нанимающий менеджер, кандидат. Диаризация позволяет быстро найти ответы конкретного человека и составить оценочный лист без прослушивания всей записи.
Исследователи и аналитики. Фокус-группы, глубинные интервью, UX-тесты. Когда в записи пять участников, ручная разметка занимает часы. Автоматическая диаризация сокращает это до минут.
Подкастеры. Выпуски с гостями, где разговаривают двое или трое. Диаризация даёт готовые шоу-ноуты и таймкоды без дополнительного редактирования.
Юристы и корпоративные секретари. Протоколы переговоров, записи совещаний. Важно зафиксировать, кто именно взял на себя обязательство или высказал позицию.
Тренеры и коучи. Разбор сессий с клиентами: кто задавал вопросы, кто отвечал, сколько времени говорил каждый участник.
Объединяет всех одно: им нужен не просто текст, а структурированный диалог, с которым можно работать.
Как работает диаризация в myISCRIBE — пошагово
@iscribe888_bot — один из немногих Telegram-ботов, который умеет делать расшифровку с разбивкой по спикерам. Процесс занимает несколько минут и не требует регистрации.
Шаг 1. Отправьте файл или ссылку. Поддерживаются аудио- и видеофайлы до 20 МБ, а также ссылки на YouTube, Rutube и Vimeo. Бот принимает MP3, MP4, WAV, OGG, M4A и другие популярные форматы.
Шаг 2. Дождитесь расшифровки. Бот переводит речь в текст. Для файла длиной 30 минут это занимает около 2–3 минут. Когда готово, вы получите полный текст расшифровки.
Шаг 3. Нажмите кнопку "Диаризация". После завершения расшифровки появляется кнопка "👥 Диаризация". Нажмите её — бот запустит разбивку текста по говорящим с таймкодами.
Шаг 4. Получите структурированный результат. Готово: каждая реплика помечена номером спикера и временным отрезком. Можно скопировать текст, скачать как файл или сразу передать в редактуру.
Дополнительно после расшифровки доступна кнопка "AI Саммари" — краткое резюме содержания, бесплатно.
Пример вывода с диаризацией
Вот как выглядит результат расшифровки интервью с двумя участниками после диаризации:
Спикер 1 [00:00–00:42]: Добрый день, меня зовут Антон, я отвечаю за продажи
в нашей компании. Мы занимаемся поставками промышленного оборудования уже
двенадцать лет.
Спикер 2 [00:42–01:15]: Антон, расскажите, как изменился рынок за последние
два года? Что вы считаете главным вызовом?
Спикер 1 [01:15–02:48]: Главный вызов — логистика. Мы перестроили цепочку
поставок, нашли новых партнёров в Азии. Это заняло почти год, но сейчас
ситуация стабильнее.
Спикер 2 [02:48–03:05]: Были ли срывы крупных контрактов в этот период?
Спикер 1 [03:05–04:20]: Один контракт мы потеряли — примерно на 15 миллионов.
Но за счёт диверсификации удержали общий объём на уровне предыдущего года.
Таймкоды позволяют быстро найти нужный момент в исходной записи. Номера спикеров можно заменить на реальные имена в текстовом редакторе — это займёт пару минут через "найти и заменить".
Сколько стоит диаризация в myISCRIBE
Диаризация — это опциональная функция. Если вам нужна только расшифровка без разбивки по спикерам, вы платите только за неё. Диаризацию запускаете, когда она действительно нужна.
Стоимость: +1 ₽/мин дополнительно к базовой цене расшифровки.
Базовые пакеты (минуты бессрочны, не сгорают):
| Пакет | Стоимость | Минуты | Цена за мин (расшифровка) | С диаризацией |
|---|---|---|---|---|
| Мини | 99 ₽ | 60 | 1.65 ₽/мин | 2.65 ₽/мин |
| Стандарт | 249 ₽ | 200 | 1.25 ₽/мин | 2.25 ₽/мин |
| Про | 549 ₽ | 600 | 0.92 ₽/мин | 1.92 ₽/мин |
| Макс | 999 ₽ | 1500 | 0.67 ₽/мин | 1.67 ₽/мин |
Оплата через YooKassa или СБП. Без подписки, без автосписания.
Файлы удаляются сразу после обработки. Данные не передаются третьим лицам.
Сравнение с альтернативами
Диаризация есть не у всех сервисов. Вот что предлагает рынок:
Voicee — Telegram-бот с диаризацией. Стоимость: от 4.17 до 8.33 ₽/мин в зависимости от тарифа. Это в 2.5–5 раз дороже myISCRIBE с диаризацией.
Conspecto — Telegram-бот, есть диаризация. Базовая расшифровка 5 ₽/мин + диаризация 1 ₽/мин = итого 6 ₽/мин. В сравнении с пакетом Макс у myISCRIBE (1.67 ₽/мин) — разница почти в 3.5 раза.
Teamlogs — Telegram-бот с диаризацией. Стоимость 5 ₽/мин, YouTube-ссылки не поддерживаются.
Transkribo — веб-сервис, есть диаризация, но только по подписке от 480 ₽/мес. Telegram-бота нет.
Буквица — 150K пользователей, безлимит за 1449 ₽/мес, но диаризация только в тарифе Про. Если нужна разбивка по спикерам, придётся брать самый дорогой план.
Итог: среди Telegram-ботов с диаризацией myISCRIBE предлагает самую низкую цену за минуту, поддерживает YouTube и не требует подписки.
Часто задаваемые вопросы
Сколько спикеров может различить система?
Система автоматически определяет количество говорящих и разделяет реплики. Оптимальная работа — при 2–5 участниках. Если в записи больше пяти голосов, качество разметки может снизиться, особенно если несколько человек говорят одновременно.
Что если голоса очень похожи?
Похожие голоса — это главная сложность для любой системы диаризации. Если два человека говорят в похожей манере, одного темпа и тембра, система может иногда их перепутать. Это характерно для всех существующих решений. Записи в хорошем качестве и с чёткими паузами между спикерами дают лучший результат.
Диаризация работает с любыми языками?
Да. Диаризация определяет смены говорящих по голосовым характеристикам, а не по смыслу слов. Она работает вне зависимости от языка записи. Расшифровка текста поддерживает русский, английский и десятки других языков.
Можно ли переименовать спикеров в итоговом тексте?
Система присваивает говорящим нейтральные метки: "Спикер 1", "Спикер 2" и так далее. Чтобы заменить их на реальные имена, воспользуйтесь функцией "Найти и заменить" в любом текстовом редакторе. Это займёт 1–2 минуты: замените "Спикер 1" на "Иван", "Спикер 2" на "Мария" — готово.
Как скачать результат с именами спикеров?
После диаризации текст можно скопировать из чата Telegram или скачать в формате TXT. Если вам нужен DOCX, сначала получите обычную расшифровку (она выдаётся в DOCX), затем дополните её именами спикеров из диаризованной версии.
Попробуйте прямо сейчас
Расшифровка с разбивкой по спикерам — это не экзотика. Это рабочий инструмент для всех, кто регулярно работает с записями интервью, встреч и подкастов.
@iscribe888_bot — откройте бот, отправьте файл или YouTube-ссылку, и через пару минут нажмите "👥 Диаризация".
Никакой регистрации. Никаких подписок. Платите только за то, что используете.
Попробуйте транскрибировать своё видео прямо сейчас
Открыть @iscribe888_bot