Транскрибация (расшифровка) аудио/видео в текст — не слишком творческая, но порой обязательная часть работы. Например, когда вы готовите интервью, материал по выступлению спикера или извлекаете тезисы из того, что наговорили на диктофон во время прогулки.

И это скучное занятие превратится в настоящее мучение, если работать по подобной схеме:

  • Открываем аудиофайл в проигрывателе Windows.
  • Создаем новый документ в Notepad/Word.
  • Запускаем воспроизведение и переключаемся в текстовый редактор.
  • Пишем, пока успеваем и хорошо слышим.
  • Если запнулись или не расслышали, переключаемся на проигрыватель.
  • Останавливаем воспроизведение и перематываем.
  • Включаем, переключаемся на текстовый редактор и т. д.

Рассказываем, как можно ускорить и упростить перевод аудио/видео в текст.

1. Автоматизировать транскрибацию

Конечно, в эпоху нейросетей не обошлось без решений для автоматического перевода звука в текст.

Google Docs

В Гугл Документах есть встроенный инструмент для расшифровки аудио с микрофона (файлы не транскрибирует). Можно вызвать его через Ctrl+Shift+S, далее выбрать язык и нажать на значок микрофона.

Очень плохо справляется с тихой и шумной диктофонной записью, достаточно хорошо — с диктовкой в микрофон.

Главный недостаток — работает только в активном окне Google Docs, то есть наговорить что-то с другой вкладки (или включить запись на компьютере) не получится.

Чтобы добавить в текст пунктуацию, нужно надиктовывать знаки голосом: точка, запятая, вопросительный/восклицательный знак, новая строка, новый абзац, кавычки. Это работает в большинстве приложений для диктовки (иногда для этого нужно найти нужную галку в настройках).

Пример работы голосового ввода Google DocsПример работы голосового ввода Google Docs

Speechpad

Бесплатный онлайн-инструмент.

Расшифровывает только звук с микрофона, поэтому тот должен быть хорошего качества. Поддерживается Google Chrome, но есть еще приложения для iOS и Android. Плюс возможна интеграция с Windows, Mac и Linux — чтобы обеспечить голосовой ввод в любом текстовом поле. Хороший звук понимает достаточно хорошо, плохой — очень плохо.

Фрагмент YouTube-ролика хорошо перевел в текст, в общем и целом, редактуры не очень многоФрагмент YouTube-ролика хорошо перевел в текст, в общем и целом, редактуры не очень много

RealSpeaker

Платный онлайн-расшифровщик. Работает только с готовыми файлами, что-то наговорить с микрофона здесь нельзя. Переводит аудио в текст бесплатно, но только если запись длится до 1,5 мин. Далее стоимость — 8 руб. за минуту, максимальная продолжительность аудио — 180 мин. Поддерживается почти 40 языков, включая русский и украинский.

Интересно, что в разделе «Мои медиа» доступны транскрибированные тексты других пользователей. Можно приблизительно оценить качество расшифровки, подумать, стоит ли платить за нее деньги. Это же удобство — пугает. Никакой приватности, можно даже редактировать и удалять чужие тексты.

Оплаченный текст будет доступен только вам. Интересно, что при загрузке видео результат можно скачать сразу в формате субтитров (*.srt).

Сервис сейчас в бета-версии, многие функции вызывают вопросы. Например, нельзя удалить загруженный файл из облака, но со временем файлы удаляются автоматически.

Пример транскрипта другого пользователя, текст доступен абсолютно всемПример транскрипта другого пользователя, текст доступен абсолютно всем

Dictation

Тоже онлайн-сервис для распознавания речи. Бесплатный. Работает только со звуком с микрофона, готовые записи загрузить нельзя. Понимает не только русские слова, но и десятки команд («тире», «новая строка» и др.).

Включает простейший встроенный редактор — сразу меняйте форматирование, оформляйте списки и др. Не переключаясь, можно отправить текст на e-mail и в соцсети, сохранить на компьютер.

Четкую речь блогера, подготовленную профессионально и в тишине, распознал почти идеально. Речь героя интервью из того же YouTube-ролика, которая была записана без петлички и с фоновым шумом, уже понял только наполовину. С диктофонной записью все печально.

Пример того, как работает Dictation (1 — качественная запись, 2 — посредственная)Пример того, как работает Dictation (1 — качественная запись, 2 — посредственная)

Voco

Это платная десктопная Windows-программа для расшифровки речи, не требующая доступ к интернету. Работает как с микрофоном, так и с готовыми аудиозаписями — поддерживаются все популярные форматы (wav, mp3, wma). Правда, последнее возможно только на дорогих тарифах.

Важный момент — программа обучается на ваших документах, начинает лучше понимать лексику и стиль, расширяет базовый словарный запас. Алгоритм версии 2.0 дообучен на звуковых данных, записанных на расстоянии 1 м от микрофона — для улучшенного распознавания со встроенных устройств и диктофонов.

Базовый тариф стоит 1867 руб. в год, профессиональный — 15 500 руб. (дальше продлевать будет дешевле в разы). Разница между ними — в функциональности (например, транскрибация аудиозаписей и встраивание в Word есть только у Voco.Professional). Необязательно платить сразу — есть триал на 2 недели.

Так Voco расшифровал озвученную статью Дурова о Долине. Не особо впечатляет, хотя это результат сразу после установки программы, без обученияТак Voco расшифровал озвученную статью Дурова о Долине. Не особо впечатляет, хотя это результат сразу после установки программы, без обучения

Экзотика: субтитры YouTube

Наверняка вы замечали, что YouTube достаточно хорошо автоматически расшифровывает, что говорят герои в видеороликах. Можно использовать эту технологию и в личных целях. Метод экстремальный, но вполне доступный при отсутствии других возможностей для расшифровки.

Загружаете с ограниченным доступом любое видео, открываете его в «Творческой студии», переходите в раздел «Субтитры». Далее выбираете язык, подтверждаете и — готово. Субтитры можно скачать в формате .sbv, файл легко откроется в стандартном Блокноте.

Проблема в том, что выгружаются именно субтитры — с таймкодами и постоянным разрывом текста. Довольно сложно собрать нормальный материал, если видео длинное. И еще сложнее, если качество звука оставляет желать лучшего. А если у вас не видеозапись, а чистое аудио — придется еще и превращать его в видео в каком-нибудь редакторе для такого способа расшифровки.

Используя автозамены и макросы в редакторе, такой текст несложно вычистить от таймкодов. А вот собирать в связные абзацы придется вручную.

Так выглядит файл с субтитрами, который скачивается из «Творческой студии» YouTubeТак выглядит файл с субтитрами, который скачивается из «Творческой студии» YouTube

2. Усовершенствовать ручную расшифровку

Можно пойти другим путем — не автоматизировать, но упростить работу и транскрибировать без кошмара, описанного в самом начале статьи. Вам все равно придется слушать и записывать, но это будет удобно делать внутри хорошо обустроенного сервиса.

oTranscribe

Бесплатный веб-сервис для ручной транскрибации текста. Работает как с аудио, так и с видео, в том числе YouTube-роликами. Открывает десятки форматов: wav, mp3, mpeg, webm и др.

Можно назначить горячие клавиши для управления воспроизведением. Есть автосохранение, простой текстовый редактор, интерактивные метки, упрощающие навигацию.

Интерфейс oTranscribeИнтерфейс oTranscribeИнтерфейс oTranscribe

Express Scribe

Условно-бесплатное десктопное ПО для Windows/Mac. Позволяет загружать аудио и видеофайлы с самых разных источников: дисков, FTP-серверов, электронных писем и др. Поддержка форматов зависит от версии: например, mp3 и wav открываются в любом случае, а wmv, mp4 или 3gp — только в Pro.

Гибкие настройки воспроизведения: управляйте горячими клавишами, меняйте скорость, переключайтесь на определенный таймкод. Можно добавлять заметки к файлам, подключать к работе ножную педаль — специальное устройство, USB-переключатель для геймеров и транскрибаторов.

Удобно, что все записи добавляются в список и между ними легко переключаться — не нужно каждый раз заново их загружать. Неудобно, что нет текстового редактора (зато есть интеграция с MS Word, Corel Wordperfect, Lotus Wordpro ​​и другими текстовыми процессорами под Windows).

Неограниченная лицензия PRO стоит от 25 $, но для личного использования вполне хватит бесплатной версии.

Так выглядит окно Express ScribeТак выглядит окно Express Scribe

Transcriber Pro

Тоже десктопный инструмент для ускорения ручной расшифровки (правда, только аудио в текст и только для Windows). Функциональность похожа на аналогичные решения: есть управление горячими клавишами, создание заметок (тегов), автозамена текста, настройка «прыжка» после паузы и др.

В числе преимуществ Transcriber Pro также указали командную работу — возможность разбивать проект на подзадачи, выгружать их и пересылать, потом объединять результаты в один файл. Участники команды будут работать в офлайне, но результат потом соберется в одно целое.

Платная лицензия стоит 640 руб. в год, но ее нет смысла покупать ради такой функции, как экспорт в интерактивные стенограммы. Этот формат похож на обычные субтитры, которые, например, выгружаются с YouTube.

Видеообзор программы.

LossPlay

Это десктопный плеер для Windows в помощь расшифровщикам аудио/видео. Открывает mp3, wav, mp4 и др. (разработчики отмечают, что есть также «интеллектуальная поддержка недокументированных форматов», что бы это ни значило). Парит поверх всех окон, поэтому позволяет работать в любом текстовом редакторе.

Hot keys настраиваются не только для управления воспроизведением, но и для вставки шаблонных текстовых фрагментов. Если не нравится стандартный дизайн, в настройках можно задать элементам другие цвета.

Придется по душе тем, кто ностальгирует или до сих пор пользуется Winamp.

Такой вот внешний вид у LossPlayТакой вот внешний вид у LossPlay

Универсальное решение: wreally.com

Альтернатива всем вышеперечисленным инструментам — Transcribe (wreally.com). Этот онлайн-сервис позволяет транскрибировать текст обоими способами: вручную (как в oTranscribe) и автоматически (создатели указывают точность 90%). Открывает десятки видов файлов: webm, mp3, mp4, 3gp, wmv и др. Есть автосохранение, работа без доступа к интернету, интеграция ножной педали, настройка горячих клавиш, экспорт видеосубтитров. В отличие от RealSpeaker, гарантируется безопасность и приватность.

Бесплатно можно получить только 1 минуту автоматической расшифровки. Далее — 6$ в час. Ручная транскрибация тоже стоит денег, но совсем небольших — 20$ в год.

Так выглядит инструмент для ручной транскрибацииТак выглядит инструмент для ручной транскрибации

Пример работы авторасшифровщикаПример работы авторасшифровщика

3. Просто делегировать эту работу

Наконец, необязательно заниматься транскрибацией самому, неважно, автоматически или вручную. Можно делегировать это сторонним исполнителям. Например:

  • Zapisano — служба расшифровки аудиозаписей, которая готова «освободить творческих людей от рутинной работы».
  • YouDo — проект для поиска заказчиков и исполнителей.
  • FL — крупнейшая русскоязычная фриланс-биржа.
  • Kwork — онлайн-магазин фриланс-услуг.
  • Advego — биржа контента.

Из всего списка только Zapisano специализируется именно на расшифровке (и это хороший повод выбрать именно их). Работают в сервисе живые стенографисты — они предлагают тексты без слов-паразитов и оговорок, в удобном формате. У заказчика есть личный кабинет, куда загружаются записи, где видны статусы и можно скачать результат. Оплатить можно банковскими картами, электронными деньгами или по безналичному расчету.

Стандартный тариф — около 30 руб. за минуту. Придется платить больше при пониженном качестве записи, наличии специальной терминологии или повышенной срочности.

Начало работы с ZapisanoНачало работы с Zapisano

Коротко о главном

— Высококачественное аудио можно попробовать расшифровать автоматически — тогда потребуется минимум правок. Чем хуже качество, чем больше шумов, чем тише голос — тем дольше нужно будет возиться с текстом после автотранскрибации. Примеры инструментов: Google Docs, RealSpeaker, Dictation, Voco.

— Если аудио неважного качества и с обилием посторонних звуков, а у говорящего тихая речь, много слов-паразитов и отвлечений не по теме — пожалуй, стоит выбрать ручную расшифровку. Главное, облегчить ее с помощью специальных решений: oTranscribe, Express Scribe, Transcriber Pro, LossPlay или Transcribe (wreally.com). У последнего также есть платный автотранскрибатор.

— Можно просто делегировать это дело фрилансерам — они сами разберутся, какой способ расшифровки аудио им выбрать и использовать. Как правило, стоимость часа работы опытного автора/редактора/журналиста в разы выше, чем цена на транскрибацию текста. Выгоднее заплатить сторонним исполнителям, а не тратить часы на рутину. Специалистов можно найти на Zapisano, YouDo, FL, Kwork и других площадках.