Программы и способы для транскрибации аудио и видео в текст. часть 2

Что такое транскрибация и кто такой транскрибер

Транскрибация — перевод информации голосового формата в текстовый формат. При выполнении транскрибации голосовые данные прослушиваются или обрабатываются программным обеспечением, а потом отображаются в виде текста. Транскрибацию можно выполнять как с помощью специализированных приложений, так и классическим методом, когда прослушивает аудиозапись и переводит в текст человек.

Если упростить до предела, то транскрибация — расшифровка аудио в текст.

Транскрибер — это специалист, который проводит транскрибацию. Иногда данных специалистов называют транскрибаторами. Они посредством технических средств или в процессе самостоятельного прослушивания аудио переводят голосовые данные в текстовые.

Ни в коем случае не путайте транскрибацию со стенографией. Несмотря на то что направления во многом похожи, стенография применяется, как правило, в режиме реального времени.

Стенограф должен быстро переводить голос сразу на бумагу, причём не отставая от говорящего. Для этих задач у стенографов даже был специальный алфавит, который позволял писать быстрее в 2-4 раза, чем с использованием классических букв. Например, такой:

С появлением средств для ведения качественной звукозаписи, стенография потеряла свою актуальность, что сделало данную профессию невостребованной. Да и клавиатура тоже заметно снизила надобность в стенографистах, ибо печатать можно намного быстрее, чем писать от руки.

А транскрибация с появлением таких средств, наоборот, стала востребованной даже в большей степени, ведь разговоры, записанные на диктофон, камеру, в общем, на любое техническое средство, частенько приходится переводить в текстовый формат.

Где нужна транскрибация

На самом деле сейчас транскрибация очень нужна. Интернет стал мощным инструментом для получения прибыли, соответственно, в него потекли потоки денег. И транскриберы могут отщипнуть кусочек от этого пирога.

Но давайте объективно, транскрибация сейчас применяется не только во Всемирной паутине, но и многих других сферах. Например, во многих сферах бизнеса процессы переговоров, а также совещания переводятся в текстовый формат. Фактически, формируется протокол собрания, который потом заверяется и превращается в нормативный документ.

Судебные заседания, частенько, тоже переводятся в письменный формат. Иногда транскрибаторы могут работать в компаниях, где какой-нибудь «генератор идей» в виде креативного менеджера постоянно что-то говорит, пишет на диктофон, а потом транскрибер это переводит в текстовый формат.

Но в интернете важность транскрибации наиболее очевидна. Давайте банальный пример: видео на YouTube

Например, автоматически сгенерированные субтитры к видео будут выглядеть примерно так:

Бессвязная ерунда

Как видите, точность автоматического распознавания достаточно низка, что превращает субтитры в бесполезный хлам, который не будет сочетаться с видео абсолютно.

Да, в данном случае субтитры выглядят странно, ибо это исходный формат. Соответственно, в них прописаны не только слова, но и таймкоды, порядок отображения слов. И опытные транскриберы должны не только уверенно переводить аудио в текст, но и проставлять таймкоды, а также формировать порядок отображения субтитров.

Конечно, данная фишка выглядит сложно, но только для новичков, через несколько дней практики даже новичок сможет уверенно управляться с vtt-файлами субтитров, там нет ничего сложного.

Так что это только выглядит сложным и очень трудоёмким процессом, просто нужно будет привыкнуть к такого рода работе.

Итак, давайте ознакомимся с чем предстоит работать транскриберу:

  1. Подготовка субтитров для разного рода видео. Да, транскрибер может работать даже на каком-нибудь Pornhub, готовя субтитры для местных «шедевров».

  2. Перевод аудио или видео в текст, например, если владелец канала на YouTube хочет сделать текстовый блог с предоставленной в видео информацией.

  3. Подготовка документации. Например, транскрибация и последующая подготовка протоколов заседаний, переговоров.

Ну и ещё куча мелочей, в списке перечислил наиболее серьёзные направления в транскрибации, но проскакивать в этой сфере могут любые задания. На биржах видел даже задачи перевести голосовые сообщения из WhatsApp в текст.

Особенности транскрибации

Спрос на расшифровку и запись в виде текста звуковой информации, записанной на какой-либо носитель, появился вместе с изобретением диктофонов.

Первый в мире фонограф (аппарат звукозаписи) изобрел Томас Эдисон в 1877 году. Эдисон создавал свое устройство, предполагая, что с его помощью будут записываться деловые переговоры.

С тех пор утекло много воды, диктофоны претерпели кардинальные изменения, но потребность в дешифровке аудиоинформации все также актуальна.

5 главных неприятностей

На первый взгляд занятие транскрибацией элементарно. Все писали диктанты на уроках русского, ничего сверхъестественного в этом нет – включаешь проигрыватель и записываешь звучащие предложения. Работа мечты!

Но у транскрибации нет ничего общего с диктантами. В обычной жизни никто, даже профессиональный лектор, не говорит так, как это делал ваш учитель.

Вот только часть неприятностей, с которыми сталкивается любой транскрибатор.

Невнятная речь спикера (т.е. говорящего человека)

Речь людей имеет массу дефектов и недочетов. В моем университете преподавал известнейший профессор, лучший в России специалист по русской литературе XVIII века, его имя настолько известно в кругу филологов, что не будем упоминать его всуе.

Так вот его лекции были настоящим адом на Земле. Никто из нас не понимал ни слова. У маститого ученого были практически все мыслимые проблемы с дикцией, к тому же он не выпускал папиросу изо рта, что не добавляло четкости его речи.

Конечно, не у всех такие грандиозные проблемы с речевым аппаратом, но люди могут говорить слишком тихо, невнятно, проглатывать окончания, жевать слова, сильно картавить или шепелявить, очень распространенная проблема для транскрибатора – чересчур высокий темп речи.

Нечитаемость текста, прямо передающего устную речь

Вы будете удивлены, но устная и письменная речь существуют по разным законам. Не будем углубляться в лингвистические изыскания, но стоит хоть раз написать подстрочник устного выступления, как пропасть между письмом и говорением станет очевидной и даже пугающей.

Некоторые заказчики требуют дословную расшифровку, но большинство хотят получить удобоваримый текст, так что транскрибатор обязательно столкнется с необходимостью редактуры того, что он услышал и набрал.

Чем больше народа участвует в беседе, тем сложнее расшифровка

Когда говорит один человек, к его речи привыкаешь, работа становится ритмичной. Интервью тет-а-тет тоже приятно транскрибировать, один спрашивает, второй отвечает, никто никого не перебивает – счастье!

Но с появлением третьего и последующих собеседников седых волос на голове у транскрибатора прибавляется, а нервных клеток, наоборот, становится меньше. Нет, не обладают наши люди искусством вести беседу, особенно полемическую.

Некачественная запись

Посторонние шумы очень затрудняют работу. К сожалению, качество присылаемых заказчиками записей часто бывает ниже среднего.

Невысокий уровень эрудиции транскрибатора

Вы можете быть прекрасным человеком, но при этом не знать каких-то элементарных и не очень элементарных вещей. Это беда дешифровщиков.

Среди заказов на транскрибацию часто попадаются лекции со специфической терминологией, беседы о предмете или о людях, о которых вы ничего не слышали, тренинги с массой англицизмов, а вы не знакомы с иностранными языками.

Из-за этого возникает масса ошибок, иногда очень смешных и обидных. Так появляется «книга Д.К. Мирона “Бокаччо”», «Трое в лодке, нищета и собака» и прочие ляпы.

Новости музыкального софта

  • Ableton представляет Live 11
    25 февраля, 2021

    Быстрое, удобное и гибкое программное обеспечение для создания музыки и исполнения. В нем есть всевозможные эффекты, инструменты, звуки и креативные…

  • Arturia представила V COLLECTION 8
    17 декабря, 2020

    Культовая антология инструментов, которая создавалась десятилетиями. V Collection 8, объединяющий культовые аналоговые синтезаторы, ретро-сэмплеры,…

  • 04 февраля, 2019

    Synth One от компании AudioKit получил высокую оценку для iPad-версии не только из-за превосходного звучания. Этот бесплатный гибридный аналоговый/FM…

  • Digital Performer 10 от MOTU идут по пути Ableton
    04 февраля, 2019

    Digital Performer от MOTU всегда была одной из «традиционных» рабочих станций, которая работает в классическом стиле линейной аранжировки….

  • Instant Phaser Mk II от Eventide — сверхточный эмулятор железа
    27 января, 2019

    Instant Phaser компании Eventide открыл новое направление в далёком 1972 году.  Eventide утверждают, что это был первый в истории электронный…

Transcribe! Version 7

Version 7.0 was released for Windows and Linux in April 2004, and for Mac in July 2004.
It is a major redesign and rewrite. It’s written in C++ and uses the
wxWidgets
cross-platform application framework on all platforms.

The windows and menus of the program are laid out in a more logical and
convenient way, the Help system is much improved, many more sound file formats
can be read, there is stereo playback, better sound quality, 31 band graphic EQ,
transposition, configurable keyboard shortcuts, multiple stored loops, provision
for adding textual annotations (in 7.1), and many many more improvements.

Equally importantly, the rewritten program is internally elegant and targets
Windows, Mac, and Linux from a single source code. This makes it enormously
easier to work on, so ensuring that Transcribe! can continue to move forwards.

Version 7.1 for Windows, Mac, and Linux was released in October 2004.
It addresses issues affecting 7.0, adds «text blocks» (annotations) and many
small improvements.

Version 7.20 for Windows, Mac, and Linux was released in April 2005.
Main features are improved quality of sound when changing pitch or speed,
more powerful EQ filter and various improvements to the user interface.

Version 7.30 for Windows, Mac, and Linux was released 13th February 2006.
Main features are support for transcriber’s footpedals (non-MIDI), unicode
support on Mac, new Help system for Mac & Linux, and many
other improvements.

Version 7.31 for Windows, Mac, and Linux was released 31st May 2006.
Main features are Global Shortcuts (hotkeys), support for more sound file formats,
and «Universal Binary» Mac version.

Version 7.40 for Windows, Mac, and Linux was released 4 Feb 2007.
Main features are note & chord guessing, Windows Vista compatibility
and improved support for systems with multiple displays.

Version 7.41.1 for Linux (15 April 2007) is a substantial upgrade to
bring the Linux version up to date (GTK2, ALSA, unicode text, midi input).

Version 7.43 for Windows, Mac, and Linux was released 1 Oct 2007.
Main features are Automation (scripting), and support for FLAC sound files.
Also a bugfix for the Windows version which would sometimes not exit cleanly when you quit the program.

Version 7.50 for Windows, Mac, and Linux was released 16 Jan 2008.
Main new feature is video (on Windows & Mac, not yet Linux).

Version 7.51 for Windows, Mac, and Linux was released 12 Feb 2009.
Improved loop-store capability, Video Viewer «always on top» mode (on Windows),
dB calibration lines, «Time Line», many other small improvements.

Усовершенствовать ручную расшифровку

Можно пойти другим путем — не автоматизировать, но упростить работу и транскрибировать без кошмара, описанного в самом начале статьи. Вам все равно придется слушать и записывать, но это будет удобно делать внутри хорошо обустроенного сервиса.

oTranscribe

Бесплатный веб-сервис для ручной транскрибации текста. Работает как с аудио, так и с видео, в том числе YouTube-роликами. Открывает десятки форматов: wav, mp3, mpeg, webm и др.

Можно назначить горячие клавиши для управления воспроизведением. Есть автосохранение, простой текстовый редактор, интерактивные метки, упрощающие навигацию.

Интерфейс oTranscribeИнтерфейс oTranscribe

Express Scribe

Условно-бесплатное десктопное ПО для Windows/Mac. Позволяет загружать аудио и видеофайлы с самых разных источников: дисков, FTP-серверов, электронных писем и др. Поддержка форматов зависит от версии: например, mp3 и wav открываются в любом случае, а wmv, mp4 или 3gp — только в Pro.

Гибкие настройки воспроизведения: управляйте горячими клавишами, меняйте скорость, переключайтесь на определенный таймкод. Можно добавлять заметки к файлам, подключать к работе ножную педаль — специальное устройство, USB-переключатель для геймеров и транскрибаторов.

Удобно, что все записи добавляются в список и между ними легко переключаться — не нужно каждый раз заново их загружать. Неудобно, что нет текстового редактора (зато есть интеграция с MS Word, Corel Wordperfect, Lotus Wordpro ​​и другими текстовыми процессорами под Windows).

Неограниченная лицензия PRO стоит от 25 $, но для личного использования вполне хватит бесплатной версии.

Так выглядит окно Express Scribe

Transcriber Pro

Тоже десктопный инструмент для ускорения ручной расшифровки (правда, только аудио в текст и только для Windows). Функциональность похожа на аналогичные решения: есть управление горячими клавишами, создание заметок (тегов), автозамена текста, настройка «прыжка» после паузы и др.

В числе преимуществ Transcriber Pro также указали командную работу — возможность разбивать проект на подзадачи, выгружать их и пересылать, потом объединять результаты в один файл. Участники команды будут работать в офлайне, но результат потом соберется в одно целое.

Платная лицензия стоит 640 руб. в год, но ее нет смысла покупать ради такой функции, как экспорт в интерактивные стенограммы. Этот формат похож на обычные субтитры, которые, например, выгружаются с YouTube.

Видеообзор программы.

LossPlay

Это десктопный плеер для Windows в помощь расшифровщикам аудио/видео. Открывает mp3, wav, mp4 и др. (разработчики отмечают, что есть также «интеллектуальная поддержка недокументированных форматов», что бы это ни значило). Парит поверх всех окон, поэтому позволяет работать в любом текстовом редакторе.

Hot keys настраиваются не только для управления воспроизведением, но и для вставки шаблонных текстовых фрагментов. Если не нравится стандартный дизайн, в настройках можно задать элементам другие цвета.

Придется по душе тем, кто ностальгирует или до сих пор пользуется Winamp.

Такой вот внешний вид у LossPlay

Универсальное решение: wreally.com

Альтернатива всем вышеперечисленным инструментам — Transcribe (wreally.com). Этот онлайн-сервис позволяет транскрибировать текст обоими способами: вручную (как в oTranscribe) и автоматически (создатели указывают точность 90%). Открывает десятки видов файлов: webm, mp3, mp4, 3gp, wmv и др. Есть автосохранение, работа без доступа к интернету, интеграция ножной педали, настройка горячих клавиш, экспорт видеосубтитров. В отличие от RealSpeaker, гарантируется безопасность и приватность.

Бесплатно можно получить только 1 минуту автоматической расшифровки. Далее — 6$ в час. Ручная транскрибация тоже стоит денег, но совсем небольших — 20$ в год.

Так выглядит инструмент для ручной транскрибации

Пример работы авторасшифровщика

Усовершенствовать ручную расшифровку

Можно пойти другим путем — не автоматизировать, но упростить работу и транскрибировать без кошмара, описанного в самом начале статьи. Вам все равно придется слушать и записывать, но это будет удобно делать внутри хорошо обустроенного сервиса.

oTranscribe

Бесплатный веб-сервис для ручной транскрибации текста. Работает как с аудио, так и с видео, в том числе YouTube-роликами. Открывает десятки форматов: wav, mp3, mpeg, webm и др.

Можно назначить горячие клавиши для управления воспроизведением. Есть автосохранение, простой текстовый редактор, интерактивные метки, упрощающие навигацию.

Интерфейс oTranscribeИнтерфейс oTranscribe

Express Scribe

Условно-бесплатное десктопное ПО для Windows/Mac. Позволяет загружать аудио и видеофайлы с самых разных источников: дисков, FTP-серверов, электронных писем и др. Поддержка форматов зависит от версии: например, mp3 и wav открываются в любом случае, а wmv, mp4 или 3gp — только в Pro.

Гибкие настройки воспроизведения: управляйте горячими клавишами, меняйте скорость, переключайтесь на определенный таймкод. Можно добавлять заметки к файлам, подключать к работе ножную педаль — специальное устройство, USB-переключатель для геймеров и транскрибаторов.

Удобно, что все записи добавляются в список и между ними легко переключаться — не нужно каждый раз заново их загружать. Неудобно, что нет текстового редактора (зато есть интеграция с MS Word, Corel Wordperfect, Lotus Wordpro ​​и другими текстовыми процессорами под Windows).

Неограниченная лицензия PRO стоит от 25 $, но для личного использования вполне хватит бесплатной версии.

Так выглядит окно Express Scribe

Transcriber Pro

Тоже десктопный инструмент для ускорения ручной расшифровки (правда, только аудио в текст и только для Windows). Функциональность похожа на аналогичные решения: есть управление горячими клавишами, создание заметок (тегов), автозамена текста, настройка «прыжка» после паузы и др.

В числе преимуществ Transcriber Pro также указали командную работу — возможность разбивать проект на подзадачи, выгружать их и пересылать, потом объединять результаты в один файл. Участники команды будут работать в офлайне, но результат потом соберется в одно целое.

Платная лицензия стоит 640 руб. в год, но ее нет смысла покупать ради такой функции, как экспорт в интерактивные стенограммы. Этот формат похож на обычные субтитры, которые, например, выгружаются с YouTube.

Видеообзор программы.

LossPlay

Это десктопный плеер для Windows в помощь расшифровщикам аудио/видео. Открывает mp3, wav, mp4 и др. (разработчики отмечают, что есть также «интеллектуальная поддержка недокументированных форматов», что бы это ни значило). Парит поверх всех окон, поэтому позволяет работать в любом текстовом редакторе.

Hot keys настраиваются не только для управления воспроизведением, но и для вставки шаблонных текстовых фрагментов. Если не нравится стандартный дизайн, в настройках можно задать элементам другие цвета.

Придется по душе тем, кто ностальгирует или до сих пор пользуется Winamp.

Такой вот внешний вид у LossPlay

Универсальное решение: wreally.com

Альтернатива всем вышеперечисленным инструментам — Transcribe (wreally.com). Этот онлайн-сервис позволяет транскрибировать текст обоими способами: вручную (как в oTranscribe) и автоматически (создатели указывают точность 90%). Открывает десятки видов файлов: webm, mp3, mp4, 3gp, wmv и др. Есть автосохранение, работа без доступа к интернету, интеграция ножной педали, настройка горячих клавиш, экспорт видеосубтитров. В отличие от RealSpeaker, гарантируется безопасность и приватность.

Бесплатно можно получить только 1 минуту автоматической расшифровки. Далее — 6$ в час. Ручная транскрибация тоже стоит денег, но совсем небольших — 20$ в год.

Так выглядит инструмент для ручной транскрибации

Пример работы авторасшифровщика

Блоги

Build a custom vocabulary to enhance speech-to-text transcription accuracy with Amazon Transcribe

Авторы: Пол Чжао и Ибинь Ван

Analyzing contact center calls – customer sentiment

Авторы: Динайялан Тируннанасамбандхам, Ревант Аниредди, Лок Трин, Пол Чжао и Пийуш Пател

Performing medical transcription analysis with Amazon Transcribe Medical and Amazon Comprehend Medical

Авторы: Симран Баксендэйл, Алекс Чирайат и Шивани Мехендардж

Посетите
наш блог Transcribe, чтобы узнать об уникальных примерах использования, рекомендациях, новых функциях или почитать подробные описания технологий. 

Transcribe! 8.6 and later

The current version of Transcribe! uses GStreamer for displaying video, and this means that on Windows or Mac you will need to install GStreamer if you want to handle video. This is easy and free.
Click here for information about GStreamer.

GStreamer can handle an impressive variety of video types but if it can’t read some particular video then you would have to convert it to a different format. Search the web for a video format converter which can handle the video you’ve got.

If a video plays jerkily then use Transcribe!’s «Export Video» command to copy it, then load the copy. This works because Transcribe! itself functions as a video conversion program — regardless of the original format of the video, Video Export will always save in a format which I hope is portable and will play smoothly in Transcribe! (mp4 with H264 video and aac audio, with frequent iframes, and a bitrate similar to the original).

Что такое транскрибация

Интересно, что в Википедии вы об этом понятии ничего не найдете. Зато в свободном Интернете ему даются весьма простые определения, поскольку услуга действительно пользуется спросом и широко известна среди фрилансеров.

Несмотря на популярность и доступность медиа, текстовый формат удобен для детального анализа и изучения. Представители многих профессий обращаются за расшифровкой различных аудио и видео в текст.

Вот далеко не полный перечень файлов, содержание которых чаще всего просят транскрибировать:

  • записи семинаров, круглых столов и конференций;
  • вебинары, коучинги, онлайн-уроки, занятия с репетитором;
  • запись работы фокус-группы;
  • проповеди, лекции, речь перед публикой;
  • запись радиотрансляций, телепередач;
  • видеоролики и аудиозаписи различного содержания;
  • записи с прослушивающих устройств;
  • записи судебных заседаний;
  • записи телефонных разговоров;
  • различные надиктовки.

Мастер транскрибации работает с файлами различного формата и выполняет работу любой сложности. Это зависит от объема, типа расшифровки, качества исходника и т.п.

Таблица: виды транскрибации

Формат исходника Цель
  • Аудиофайлы
  • Видеофайлы
  • Личное пользование
  • Профессиональное пользование
  • Коммерческое пользование
Язык оригинала Глубина обработки
  • Требует перевода
  • Не требует перевода
  • Дословная расшифровка
  • Редактирование
  • Рерайт
  • Перевод на иностранный язык
Сложность информации Качество исходника
  • Требует спец. знаний
  • Доступно всем
  • Хорошее
  • Плохое
  • Подлежит предварительной обработке
Сложность восприятия Дополнительные условия
  • Один голос
  • Диалог
  • Много голосов
  • Расстановка тайм-кодов
  • Идентификация говорящих
  • Расшифровка действий, эмоций

Trint

Trint — довольно простая услуга, которая автоматически транскрибирует аудиофайлы, которые вы загружаете и отправляет вам стенограмму. Trint позволяет вам загружать файл, а затем транскрибировать его в интернете. Когда это будет сделано (что зависит от длины аудиофайла), вы получите электронное письмо, уведомляющее вас, чтобы вы могли закрыть окно и выполнить другую работу. Это не занимает много времени — транскрибирование 10-минутного файла занимает около четырех минут.

Однако, Trint не только предоставляет текстовый файл. Кроме этого, после расшифровки, он предоставляет мощный текстовый редактор, который позволяет прослушивать воспроизведение, при редактировании текста, так же как и Transcribe.

Вы даже, можете пометить различные разделы текста динамиком или добавить подсветку. Когда вы закончите, вы можете экспортировать текст, который может быть как .DOC-файл, или файл субтитров .SRT или если, вам нужны только части файла, вы можете выбрать экспорт, только основных моментов.

Вы можете изменить скорость воспроизведения, показать временную метку, для каждого абзаца или перемещаться по тексту, перемещаясь назад и вперед, через аудиофайл. По мере воспроизведения звука, соответствующий текст, также, выделяется, поэтому его очень легко отслеживать.

Это очень здорово, хотя, одно ограничение заключается в том, что вы можете использовать его, только, на своем компьютере, потому что приложений для iOS и Android нет.

Точность транскрипции, также, оставляет желать лучшего. По большому счету, текст довольно чистый, а его правильность составляет около 70 процентов.

  • Обзор динамика UE Boom 3
  • Приложение Apple TV обновлено, накануне запуска потокового сервиса компании

Плата за приложение Trint

С вас будет взиматься плата, в размере 15 долл. США в час, что не так уж и плохо, потому что запись и транскрипция (со всеми внесенными вами изменениями) всегда доступны, когда вам это нужно. Вы можете попробовать Trint, в течение 30 минут, бесплатно и посмотреть, насколько он подходит вашим потребностям.

Заключение

Транскрибация контента — отличный способ освободиться от необходимости делать заметки во время встречи, беседы, лекции. Вместо этого вы можете сосредоточиться на прослушивании и взаимодействии с другими участниками или в случае личных голосовых заметок, слушайте себя вслух, размышляйте и свободно стройте свои собственные идеи. И с помощью простых в использовании инструментов, доступных сегодня, можно быстро и легко выполнять свои задачи делая транскрипции.

Ресурсы: иконка микрофона Travis Yunis из проекта Noun Project; Иконка Paper-Shredder от Maximilian Becker из проекта Noun Project.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Adblock
detector