Транскрибация (расшифровка) аудио/видео в текст — не слишком творческая, но порой обязательная часть работы. Например, когда вы готовите интервью, материал по выступлению спикера или извлекаете тезисы из того, что наговорили на диктофон во время прогулки.
И это скучное занятие превратится в настоящее мучение, если работать по подобной схеме:
- Открываем аудиофайл в проигрывателе Windows.
- Создаем новый документ в Notepad/Word.
- Запускаем воспроизведение и переключаемся в текстовый редактор.
- Пишем, пока успеваем и хорошо слышим.
- Если запнулись или не расслышали, переключаемся на проигрыватель.
- Останавливаем воспроизведение и перематываем.
- Включаем, переключаемся на текстовый редактор и т. д.
Рассказываем, как можно ускорить и упростить перевод аудио/видео в текст.
1. Автоматизировать транскрибацию
Конечно, в эпоху нейросетей не обошлось без решений для автоматического перевода звука в текст.
Google Docs
В Гугл Документах есть встроенный инструмент для расшифровки аудио с микрофона (файлы не транскрибирует). Можно вызвать его через Ctrl+Shift+S, далее выбрать язык и нажать на значок микрофона.
Очень плохо справляется с тихой и шумной диктофонной записью, достаточно хорошо — с диктовкой в микрофон.
Главный недостаток — работает только в активном окне Google Docs, то есть наговорить что-то с другой вкладки (или включить запись на компьютере) не получится.
Чтобы добавить в текст пунктуацию, нужно надиктовывать знаки голосом: точка, запятая, вопросительный/восклицательный знак, новая строка, новый абзац, кавычки. Это работает в большинстве приложений для диктовки (иногда для этого нужно найти нужную галку в настройках).
Пример работы голосового ввода Google Docs
Speechpad
Бесплатный онлайн-инструмент.
Расшифровывает только звук с микрофона, поэтому тот должен быть хорошего качества. Поддерживается Google Chrome, но есть еще приложения для iOS и Android. Плюс возможна интеграция с Windows, Mac и Linux — чтобы обеспечить голосовой ввод в любом текстовом поле. Хороший звук понимает достаточно хорошо, плохой — очень плохо.
Фрагмент YouTube-ролика хорошо перевел в текст, в общем и целом, редактуры не очень много
RealSpeaker
Платный онлайн-расшифровщик. Работает только с готовыми файлами, что-то наговорить с микрофона здесь нельзя. Переводит аудио в текст бесплатно, но только если запись длится до 1,5 мин. Далее стоимость — 8 руб. за минуту, максимальная продолжительность аудио — 180 мин. Поддерживается почти 40 языков, включая русский и украинский.
Интересно, что в разделе «Мои медиа» доступны транскрибированные тексты других пользователей. Можно приблизительно оценить качество расшифровки, подумать, стоит ли платить за нее деньги. Это же удобство — пугает. Никакой приватности, можно даже редактировать и удалять чужие тексты.
Оплаченный текст будет доступен только вам. Интересно, что при загрузке видео результат можно скачать сразу в формате субтитров (*.srt).
Сервис сейчас в бета-версии, многие функции вызывают вопросы. Например, нельзя удалить загруженный файл из облака, но со временем файлы удаляются автоматически.
Пример транскрипта другого пользователя, текст доступен абсолютно всем
Dictation
Тоже онлайн-сервис для распознавания речи. Бесплатный. Работает только со звуком с микрофона, готовые записи загрузить нельзя. Понимает не только русские слова, но и десятки команд («тире», «новая строка» и др.).
Включает простейший встроенный редактор — сразу меняйте форматирование, оформляйте списки и др. Не переключаясь, можно отправить текст на e-mail и в соцсети, сохранить на компьютер.
Четкую речь блогера, подготовленную профессионально и в тишине, распознал почти идеально. Речь героя интервью из того же YouTube-ролика, которая была записана без петлички и с фоновым шумом, уже понял только наполовину. С диктофонной записью все печально.
Пример того, как работает Dictation (1 — качественная запись, 2 — посредственная)
Voco
Это платная десктопная Windows-программа для расшифровки речи, не требующая доступ к интернету. Работает как с микрофоном, так и с готовыми аудиозаписями — поддерживаются все популярные форматы (wav, mp3, wma). Правда, последнее возможно только на дорогих тарифах.
Важный момент — программа обучается на ваших документах, начинает лучше понимать лексику и стиль, расширяет базовый словарный запас. Алгоритм версии 2.0 дообучен на звуковых данных, записанных на расстоянии 1 м от микрофона — для улучшенного распознавания со встроенных устройств и диктофонов.
Базовый тариф стоит 1867 руб. в год, профессиональный — 15 500 руб. (дальше продлевать будет дешевле в разы). Разница между ними — в функциональности (например, транскрибация аудиозаписей и встраивание в Word есть только у Voco.Professional). Необязательно платить сразу — есть триал на 2 недели.
Так Voco расшифровал озвученную статью Дурова о Долине. Не особо впечатляет, хотя это результат сразу после установки программы, без обучения
Экзотика: субтитры YouTube
Наверняка вы замечали, что YouTube достаточно хорошо автоматически расшифровывает, что говорят герои в видеороликах. Можно использовать эту технологию и в личных целях. Метод экстремальный, но вполне доступный при отсутствии других возможностей для расшифровки.
Загружаете с ограниченным доступом любое видео, открываете его в «Творческой студии», переходите в раздел «Субтитры». Далее выбираете язык, подтверждаете и — готово. Субтитры можно скачать в формате .sbv, файл легко откроется в стандартном Блокноте.
Проблема в том, что выгружаются именно субтитры — с таймкодами и постоянным разрывом текста. Довольно сложно собрать нормальный материал, если видео длинное. И еще сложнее, если качество звука оставляет желать лучшего. А если у вас не видеозапись, а чистое аудио — придется еще и превращать его в видео в каком-нибудь редакторе для такого способа расшифровки.
Используя автозамены и макросы в редакторе, такой текст несложно вычистить от таймкодов. А вот собирать в связные абзацы придется вручную.
Так выглядит файл с субтитрами, который скачивается из «Творческой студии» YouTube
2. Усовершенствовать ручную расшифровку
Можно пойти другим путем — не автоматизировать, но упростить работу и транскрибировать без кошмара, описанного в самом начале статьи. Вам все равно придется слушать и записывать, но это будет удобно делать внутри хорошо обустроенного сервиса.
oTranscribe
Бесплатный веб-сервис для ручной транскрибации текста. Работает как с аудио, так и с видео, в том числе YouTube-роликами. Открывает десятки форматов: wav, mp3, mpeg, webm и др.
Можно назначить горячие клавиши для управления воспроизведением. Есть автосохранение, простой текстовый редактор, интерактивные метки, упрощающие навигацию.
Интерфейс oTranscribeИнтерфейс oTranscribe
Express Scribe
Условно-бесплатное десктопное ПО для Windows/Mac. Позволяет загружать аудио и видеофайлы с самых разных источников: дисков, FTP-серверов, электронных писем и др. Поддержка форматов зависит от версии: например, mp3 и wav открываются в любом случае, а wmv, mp4 или 3gp — только в Pro.
Гибкие настройки воспроизведения: управляйте горячими клавишами, меняйте скорость, переключайтесь на определенный таймкод. Можно добавлять заметки к файлам, подключать к работе ножную педаль — специальное устройство, USB-переключатель для геймеров и транскрибаторов.
Удобно, что все записи добавляются в список и между ними легко переключаться — не нужно каждый раз заново их загружать. Неудобно, что нет текстового редактора (зато есть интеграция с MS Word, Corel Wordperfect, Lotus Wordpro и другими текстовыми процессорами под Windows).
Неограниченная лицензия PRO стоит от 25 $, но для личного использования вполне хватит бесплатной версии.
Так выглядит окно Express Scribe
Transcriber Pro
Тоже десктопный инструмент для ускорения ручной расшифровки (правда, только аудио в текст и только для Windows). Функциональность похожа на аналогичные решения: есть управление горячими клавишами, создание заметок (тегов), автозамена текста, настройка «прыжка» после паузы и др.
В числе преимуществ Transcriber Pro также указали командную работу — возможность разбивать проект на подзадачи, выгружать их и пересылать, потом объединять результаты в один файл. Участники команды будут работать в офлайне, но результат потом соберется в одно целое.
Платная лицензия стоит 640 руб. в год, но ее нет смысла покупать ради такой функции, как экспорт в интерактивные стенограммы. Этот формат похож на обычные субтитры, которые, например, выгружаются с YouTube.
Видеообзор программы.
LossPlay
Это десктопный плеер для Windows в помощь расшифровщикам аудио/видео. Открывает mp3, wav, mp4 и др. (разработчики отмечают, что есть также «интеллектуальная поддержка недокументированных форматов», что бы это ни значило). Парит поверх всех окон, поэтому позволяет работать в любом текстовом редакторе.
Hot keys настраиваются не только для управления воспроизведением, но и для вставки шаблонных текстовых фрагментов. Если не нравится стандартный дизайн, в настройках можно задать элементам другие цвета.
Придется по душе тем, кто ностальгирует или до сих пор пользуется Winamp.
Такой вот внешний вид у LossPlay
Универсальное решение: wreally.com
Альтернатива всем вышеперечисленным инструментам — Transcribe (wreally.com). Этот онлайн-сервис позволяет транскрибировать текст обоими способами: вручную (как в oTranscribe) и автоматически (создатели указывают точность 90%). Открывает десятки видов файлов: webm, mp3, mp4, 3gp, wmv и др. Есть автосохранение, работа без доступа к интернету, интеграция ножной педали, настройка горячих клавиш, экспорт видеосубтитров. В отличие от RealSpeaker, гарантируется безопасность и приватность.
Бесплатно можно получить только 1 минуту автоматической расшифровки. Далее — 6$ в час. Ручная транскрибация тоже стоит денег, но совсем небольших — 20$ в год.
Так выглядит инструмент для ручной транскрибации
Пример работы авторасшифровщика
3. Просто делегировать эту работу
Наконец, необязательно заниматься транскрибацией самому, неважно, автоматически или вручную. Можно делегировать это сторонним исполнителям. Например:
- Zapisano — служба расшифровки аудиозаписей, которая готова «освободить творческих людей от рутинной работы».
- YouDo — проект для поиска заказчиков и исполнителей.
- FL — крупнейшая русскоязычная фриланс-биржа.
- Kwork — онлайн-магазин фриланс-услуг.
- Advego — биржа контента.
Из всего списка только Zapisano специализируется именно на расшифровке (и это хороший повод выбрать именно их). Работают в сервисе живые стенографисты — они предлагают тексты без слов-паразитов и оговорок, в удобном формате. У заказчика есть личный кабинет, куда загружаются записи, где видны статусы и можно скачать результат. Оплатить можно банковскими картами, электронными деньгами или по безналичному расчету.
Стандартный тариф — около 30 руб. за минуту. Придется платить больше при пониженном качестве записи, наличии специальной терминологии или повышенной срочности.
Коротко о главном
— Высококачественное аудио можно попробовать расшифровать автоматически — тогда потребуется минимум правок. Чем хуже качество, чем больше шумов, чем тише голос — тем дольше нужно будет возиться с текстом после автотранскрибации. Примеры инструментов: Google Docs, RealSpeaker, Dictation, Voco.
— Если аудио неважного качества и с обилием посторонних звуков, а у говорящего тихая речь, много слов-паразитов и отвлечений не по теме — пожалуй, стоит выбрать ручную расшифровку. Главное, облегчить ее с помощью специальных решений: oTranscribe, Express Scribe, Transcriber Pro, LossPlay или Transcribe (wreally.com). У последнего также есть платный автотранскрибатор.
— Можно просто делегировать это дело фрилансерам — они сами разберутся, какой способ расшифровки аудио им выбрать и использовать. Как правило, стоимость часа работы опытного автора/редактора/журналиста в разы выше, чем цена на транскрибацию текста. Выгоднее заплатить сторонним исполнителям, а не тратить часы на рутину. Специалистов можно найти на Zapisano, YouDo, FL, Kwork и других площадках.