Транскрибация: 5 простых и проверенных способов перевода речи в текст

ИСПОЛЬЗОВАНИЕ ОНЛАЙН-СЕРВИСОВ

Это российская
разработка изначально создавалась для распознавания речи и её перевода в
текстовый формат, т.е. достаточно говорить в микрофон, а текст будет набираться
самостоятельно.

Качество, конечно, «не
ахти какое», так как много получается ошибок.

Сервис также частенько
«любит глючить», в этом случае нужно зайти в «Поддержку» и сделать интеграцию
программы.

Если не получится
сделать её самостоятельно, тогда придётся обращаться к специалистам.

В панель для
транскрибации можно залить аудио или видеофайлы, но желательно хорошего
качества, иначе это не сработает.

Также для
транскрибирования аудио необходимо установить виртуальный кабель. Как это
правильно сделать, подробно показано в видео уроках на сайте.

Онлайн сервис dietation.io.    

Это зарубежный сервис,
поддерживающий, помимо русского, ещё 30 языков. Никакие аудио и видеофайлы
заливать нельзя. Используется только микрофон и голос, но зато распознаёт
сервис практически без ошибок.

Функций для
форматирования текста здесь немного, так что лучше пользоваться текстовыми
редакторами.

Google Docs.

Гугл Документы –
популярный сервис от Google. Он бесплатный.

Здесь имеется функция
«голосовой ввод», которым любят пользоваться некоторые транскрибаторы для
упрощения работы.

Принцип действий
простейший – слушаешь в наушниках запись, потом надиктовываешь в микрофон. А
сервис уже сам и речь расшифрует, и текст наберёт.

Правда результат здесь
непредсказуем — «фифти-фифти». Иной раз отменный, а иногда ошибок столько, что
быстрее было бы набрать вручную.

Для работы:

— Заходим на страницу Google Docs через свой аккаунт.

— Создаём новый документ (1).

— Подключаем голосовой ввод. Нажимаем «Инструменты» (2) – «Голосовой ввод»
или же «Ctrl+Shift+S».

— Появляется кнопка записи (3). Если её активировать она станет красной.

Внимание! Нельзя, ни в ком случае, переходить на другие вкладки во время
записи, иначе сервис перестаёт работать. Плюсы сервиса:

Плюсы сервиса:

Автоматическое сохранение набранного текста, при любом раскладе, даже при
внезапном отключении электричества.

Редактирование полученного текста можно осуществлять прямо на сервисе, так
как для этого имеется весь набор функций.

Есть, конечно, и
другие программы, но особой необходимости, как дополнение к вышеперечисленным,
в них нет. В общем, это уже «чисто на любителя».

Перечислю только
названия, так как практических навыков работы с ними не имею:

  1. Онлайн-сервис RealSpeaker.
    На нём можно до 1,5 минут транскрибировать бесплатно. Только для аудиофайлов.
  2.   Профессиональная программа Transcriber-pro. По отзывам очень интересная и с широкими возможностями. Демо версии нет. Для её приобретения нужно обращаться в техподдержку и решать вопрос с ними лично.  
  3.    Программа RSplayer. Очень многие её хвалят. Плеер бесплатный и поддерживает очень многие аудио и видео форматы. Он прост, эффективен и понятен в использовании.  
  4.   Программа Windows-VOCO. Тоже классная программа, которая позволяет подключать словари. Чтобы получить пробную версию, нужно также предварительно отправить запрос разработчикам.  

Командная строка Яндекса

С её помо­щью мы смо­жем полу­чать нуж­ные клю­чи досту­па, что­бы отправ­лять фай­лы с запи­ся­ми на сер­вер для обработки.

Весь про­цесс уста­нов­ки мы опи­шем для Windows. Если у вас Mac OS или Linux, то всё будет то же самое, но с поправ­кой на опе­ра­ци­он­ную систе­му. Поэто­му если что — .

Для уста­нов­ки и даль­ней­шей рабо­ты нам пона­до­бит­ся PowerShell — это про­грам­ма для рабо­ты с команд­ной стро­кой, но с рас­ши­рен­ны­ми воз­мож­но­стя­ми. Запус­ка­ем PowerShell и пишем там такую команду:

iex (New-Object System.Net.WebClient).DownloadString(‘https://storage.yandexcloud.net/yandexcloud-yc/install.ps1’)

Она ска­ча­ет и запу­стит уста­нов­щик команд­ной стро­ки Яндек­са. В сере­дине скрипт спро­сит нас, доба­вить ли путь в систем­ную пере­мен­ную PATH, — в ответ пишем Y и нажи­ма­ем Enter:

Команд­ная стро­ка Яндек­са уста­нов­ле­на в систе­ме, закры­ва­ем PowerShell и запус­ка­ем его зано­во. Теперь нам нуж­но полу­чить токен авто­ри­за­ции — это такая после­до­ва­тель­ность сим­во­лов, кото­рая пока­жет «Обла­ку», что мы — это мы, а не кто-то другой.

Пере­хо­дим по спе­ци­аль­ной ссыл­ке, кото­рая даст нам нуж­ный токен. Сер­вис спро­сит у нас, раз­ре­ша­ем ли мы доступ «Обла­ка» к нашим дан­ным на Яндек­се — нажи­ма­ем «Раз­ре­шить». В ито­ге видим стра­ни­цу с токеном:

Теперь нуж­но закон­чить настрой­ку команд­ной стро­ки Яндек­са, что­бы мож­но было с ней пол­но­цен­но рабо­тать. Для это­го в PowerShell пишем команду:

yc init

Когда скрипт попро­сит — вво­дим токен, кото­рый мы толь­ко что получили:

Сна­ча­ла отве­ча­ем «1», затем «Y» и «4».

Как начать зарабатывать

Приступить к осваиванию новой профессии несложно – понадобятся наушники, клавиатура и текстовый редактор (подойдет и «Блокнот» в Windows, и «Заметки» в MacOS). Иные детали станут известны с опытом.

Механизм работы

Если описывать транскрибацию пошагово, то алгоритм действий выглядит следующим образом:

  • Выбор подходящей биржи, регистрация, авторизация, заполнение личного профиля полезной информацией (хотя бы кратко, но стоит рассказать о навыках и способностях), а настроек – номерами карт или электронных кошельков;
  • Поиск заказов в ленте, подача заявок. Предлагать собственную кандидатуру рекомендуется вместе с коротким сообщением о возможных сроках выполнения, накопленном опыте;

  • Разбор аудиозаписей или видеороликов, перенос содержимого в Word или иной текстовый редактор;
  • Сдача заказа, доработки, перевод денежных средств на счет. Далее – вывод на кошелек или карту.

Сценарий, описанный выше, крайне предсказуемый, и схож с остальными профессиями – копирайтингом, дизайном и программированием.

Где брать заказы

Начинать карьеру рекомендуются с бирж фриланса или копирайтинга, где периодически появляются заказы, связанные с расшифровкой аудио или видеозаписей:

  • Work-Zilla. Платформа для поиска исполнителей или работодателей, где встречаются заказы по транскрибации и смежным темам (рерайт, редактура, копирайтинг). Ставка фиксированная и выбирается обеими сторонами: каждый способен предложить собственную цену.
  • Kwork. Альтернатива Work-Zilla с заказами по 500 рублей. Сколько текста предстоит расшифровать за указанную сумму – зависит непосредственно от вредности работодателя. Но чаще речь о 40-50 минутах аудио или видеозаписей.

  • Weblancer. Биржа, где транскрибация встречается все реже, но зато вместо разовых подработок на Weblancer предлагают долгое сотрудничество. Предстоит расшифровывать сотни материалов почти каждый день.
  • FLru. Небезызвестная площадка, где полно работы, но новичкам на FL не рады: необходимо оформлять подписку на Premium и сражаться с бесконечной конкуренцией вокруг.
  • Advego. Биржа копирайтинга, выделяющаяся на фоне конкурентов за счет целой коллекции дополнительных заданий, включая социальное взаимодействие и редактуру текста. Транскрибация встречается часто, расценки стандартные.

Программы для перевода аудио в текст

Инструментов, способных хотя бы частично облегчить жизнь во время транскрибации, не слишком много, но парочка все же найдется:

Express Scribe. Гибко настраиваемый аудиопроигрыватель с возможностью выбора скорости воспроизведения контента, встроенным эквалайзером и механизмом снижения шумов в исходнике.

LossPlay. Профессиональный инструмент для автоматической транскрибации загружаемых материалов. Предусмотрена поддержка горячих клавиш, автоматического распознавания речи и языков, доступна на русском языке. В расшифровке часто ошибается, но мелкие детали несложно подправить вручную.

VOCO. Разрешает начитывать текст и переносить в редактор. Распространяется по подписке. Ежемесячная абонентская плата – 1690 рублей. Пробный период предусмотрен.

Сравнительный тест сервисов

Для теста выберем два непростых для распознавания фрагмента, которые содержат нечасто употребляемые в нынешней речи слова и речевые обороты.  Для начала читаем фрагмент поэмы «Крестьянские дети» Н. Некрасова.

Ниже представлен результат перевода речи в текст каждым сервисом (ошибки обозначены красным цветом):

Как видим, оба сервиса практически с одинаковыми ошибками справились с распознаванием речи. Результат весьма неплохой!

Теперь для теста возьмем отрывок из письма красноармейца Сухова (к/ф «Белое солнце пустыни»):

Отличный результат!

Как видим, оба сервиса весьма достойно справляются с распознаванием речи – выбирайте любой!  Похоже что они даже используют один и тот же движок — уж слижком схожие у них оказались допущенные ошибки по результатам тестов ). Но если Вам необходимы дополнительные функции типа подгрузки аудио / видео файла и перевода его в текст (транскрибация) или синхронного перевода озвученного текста на другой язык, то Speechpad будет лучшим выбором!

Ну а это краткая видео инструкция по работе со Speechpad, записанная самим автором проекта:

Зачем переводить аудио в текст

Расшифровывать аудиозаписи и видеоматериалы полезно с точки зрения продвижения в поисковой выдаче и расширения информационного охвата, экономии чужого времени (некоторым банально некогда просматривать ролики на YouTube), уникализации контента.

А еще полезно давать потенциальным клиентам, зрителям или подписчикам выбор: кому-то проще читать, а кто-то с радостью половину прослушает, а вторую часть – бегло пробежит глазами.

Кто платит

В транскрибации заинтересованы вебмастера, создатели интернет-курсов, ведущие вебинаров, организаторы конференций и тематических онлайн-трансляций.

Виной тому аудитория: смотреть трехчасовой ролик на YouTube согласятся далеко не все, а вот пробежать глазами текст и найти полезную информацию готовы многие (а ведь еще и поиск по тексту доступен через Ctrl + F), в особенности, если Live-вещание давно закончилось, и приходится смотреть запись.

Стоит отметить, что транскрибация популярна среди журналистов, записывающих интервью на диктофон, а после – из-за нехватки времени и сил, прибегающих к чужой помощи для адаптации материалов перед публикацией в сети.

Программы для транскрибации

Существует много специальных сервисов, которые позволяют облегчить работу. Сервис dictation.io считается прекрасным вариантом, который дает возможность бесплатно перевести речь в текстовый формат.

Площадка обеспечивает автоматическое сохранение готовых результатов. Это поможет избежать случайного удаления вследствие закрытия вкладки или браузера. Сервис не позволяет распознать готовые файлы. Он работает с микрофоном. При диктовке следует называть знаки препинания.

Текст удается распознать достаточно корректно, без орфографических ошибок. Также можно самостоятельно вставлять с клавиатуры знаки препинания. Сохранить готовые результаты можно на своем компьютере.

Сайт speechpad.ru представляет собой онлайн-площадку, которая позволяет через браузер Google Chrome переводить речь в текстовый формат.

Сервис работает с готовыми файлами и микрофоном. Безусловно, качество будет выше при использовании внешнего микрофона. Однако сайт неплохо трансформирует даже ролики на YouTube.

При этом нужно нажать «Включить запись», ответить на вопрос относительно использования микрофона. А затем следует нажать «Разрешить».

Готовый результат удается легко отредактировать. Для этого требуется ручным способом исправить выделенное слово или надиктовать его снова. Результаты можно сохранить в личном кабинете или скачать на компьютер.

Сервис позволяет работать с 7 языками. При этом он имеет и недостаток. Если требуется транскрибация готового аудиофайла, он звучит в колонках. Это становится причиной дополнительных помех в виде эха.

Dragon Dictation представляет собой бесплатное приложение, которое подходит для устройств компании Apple. Программа дает возможность редактировать результаты, выбирая нужные слова из списка

При этом важно четко проговаривать все звуки, без пауз. Нежелательной является и интонация

Иногда можно столкнуться с ошибками в конце слова.


Существует много программ, которые облегчают работу

Приложение Dragon Dictation подойдет и для обладателей гаджетов Android. Они могут диктовать в него список покупок или другую важную информацию.

Следующим полезным сайтом станет RealSpeaker. Эта программа с легкостью переводит речь человека в текстовый формат. Она позволяет преобразовывать речь, которая звучит в микрофон. Он может быть встроен в ноутбук. Также удается преобразовывать формат, записанный в аудиофайлы.

Программа преобразовывает 13 языков мира. Существует бета-версия, которая функционирует как онлайн-сервис. Для этого необходимо выбрать русский язык, загрузить на сайт файл. При этом за его перевод приходится платить. После этого можно скопировать готовый текст. Чем больше размер файла, тем больше времени уйдет на преобразование.

Speechnotes считается альтернативой RealSpeaker, которая позволяет работать на Android. Текст удается редактировать автоматически и расставлять в нем знаки препинания. Этот вариант удобен для составления список или заметок. В результате удается получить качественный текст. Также существует платная премиум-версия.

Сайт и программа RealSpeaker

Нужно знать, что сейчас оффлайн версии, то есть, программы для транскрибации ReaLSpeaker уже нет. Если Вы хотите пользоваться именно программой, то ищите старую версию.

Сейчас же можно работать только в режиме онлайн-сервиса.

Некоторым транскрибаторам эта программа (и сайт) очень нравится. Некоторым не очень. Я предлагаю Вам ответить на этот вопрос самостоятельно. Потестируйте немного ее, и узнаете.

В плюсы Реалспикера можно отнести то, что она работает с загруженными аудиофайлами. Есть много языков, которые RealSpeaker понимает. Из минусов – программа и сервис платные. Правда цена не очень высокая, но все-таки…

Speechlogger

Увеличить

Speechlogger – приложение для мобильных устройств под управлением Android, которое можно бесплатно скачать в Google Play. Во время диктовки, программа самостоятельно редактирует текст и расставляет знаки препинания, что позволяет на выходе получить очень достойный результат.

Помимо указанных, существует еще немалое количество программ для ПК и мобильных устройств, а также онлайн-сервисов, позволяющих работать прямо в браузере, которые помогают расшифровывать аудиофайлы в текст, и даже частично автоматизируют этот процесс. Но какому бы софту вы не отдали предпочтение, необходимо быть готовым к тому, что полученный результат будет требовать проверки, исправления ошибок и внесения коррективов. Полностью автоматизировать процесс транскрибации не получится.

Программы для транскрибации

В этом разделе я затрону основные категории программ, которые позволят вам быстро стартовать и «влиться» в работу. Если вам нужна подработка удаленно или вы предпочитаете фриланс, знайте, что заработок на транскрибации можно увеличить за счет использования некоторых программ.

В обязательном порядке

  • Текстовые редакторы – для удобной работы с текстом – советую обычный Word или LibreOffice Writer (их можно найти в офисных пакетах Microsoft Office или LibreOffice). Блокнот или Notepad проигрывают из-за ограниченного функционала.
  • Аудио- и видеоплееры – для воспроизведения, редактирования исходных или преобразованных файлов – из самых известных Winamp, KMP, либо другие в вашей операционной системе.
  • Конвертеры – для извлечения и (или) преобразования файлов из одного формата в другой и для улучшения звучания. Adobe Audition и Freemake Video Converter вполне подойдут.

Для оптимизации рабочего процесса

Обратите внимание на специальные программы для транскрибации. Функционал этих программ позволит вам работать с исходником и текстовым редактором одновременно, не переключаясь между окнами, снизить скорость воспроизведения исходника, автоматически вставлять тайм-код или имена собеседников, автоматически транскрибировать аудио в текст или использовать голосовой ввод, и многое другое

Функционал этих программ позволит вам работать с исходником и текстовым редактором одновременно, не переключаясь между окнами, снизить скорость воспроизведения исходника, автоматически вставлять тайм-код или имена собеседников, автоматически транскрибировать аудио в текст или использовать голосовой ввод, и многое другое.

  • Express Scribe;
  • Transcriber-pro;
  • Speechpad.ru;
  • Dictation.io;
  • LossPlay;
  • Dragon Dictation;
  • RSplayer.

Вспомогательные программы

Утилиты и сайты, чтобы работать было проще:

  1. Punto Switcher – программа для автоматического переключения раскладки клавиатуры. Позволит сэкономить много времени при быстром наборе текста, содержащего иностранные слова, избавит от необходимости смены языка вручную и исправления связанных с этим ошибок.
  2. AutoHotkey – программа для генерации и использования в работе скриптов. Эта и другие подобные утилиты значительно ускоряют процесс набора текста за счет автозамены сокращений, а также встроенных и настраиваемых шаблонов.
  3. Грамота, Тургенев, Главред – это онлайн-ресурсы для проверки содержания вашего текста на наличие ошибок. Необходимы, если исходник подлежит глубокой обработке. Помогут при чистке текста от речевых штампов, жаргонизмов, слов-паразитов, стоп-слов, стилистических ошибок и перегруженности.
  4. Тренажеры слепой и десятипальцевой печати, онлайн-измерители скорости – solo.nabiraem.ru позволит быстро измерить скорость вашей печати.
  5. Соло на клавиатуре – известный и проверенный сервис, где вы можете повысить уровень своего навыка и даже посоревноваться с другими «гонщиками на клавиатуре».

Сайт и программа Speechpad (Спичпэд)

Еще одна, любимая многими программа и одновременно онлайн-сервис. Голосовой блокнот Speechpad.

Можно заниматься транскрибацией прямо онлайн. На сайте. Можно установить расширение для Гугл Хром. Можно интегрировать это все в операционную систему для ввода в нужные программы. Кстати, это одна из немногих программ, которая работает в моем любимом Линукс Минт!

Вообще, функционал сервиса SpeechPad воистину огромен. Давайте посмотрим на него внимательней:

  • Голосовой набор текста с микрофона. Кстати, этот сервис один из лидеров по правильному распознаванию речи (на мой взгляд). Ввод текста идет синхронно “говорению”. Можно по ходу сразу же править текст и вставлять знаки препинания.
  • Транскрибация с аудиофайла или прямо с ролика Ютуб. Достаточно указать путь к аудиофайлу или видеоролику, включить транскрибатор, и начнется перевод. Правда, у меня почему-то не всегда получается это с первого раза. Может, потому что стоит Линукс.
  • Есть озвучивание субтитров. Да и простого текста. Используется голос Гугл переводчика. Немного коряво, но в принципе “слушательно”
  • Можно делать проверку произношения. Это пригодится тем, кто изучает иностранный язык

Если внимательно посмотреть, то можно много чего еще найти в сервисе для перевода аудио в текст SpeechPad. Есть подробные видеоуроки по каждому пункту. Есть просто подсказки. Можно сохранить готовый текст в файлы.

И да, он тоже бесплатен! Во всяком случае, на момент написания данной статьи!

Способы ускорить работу над расшифровкой

Имея огромный опыт в наборе текстов, для себя сделал следующие выводы как можно ускорить расшифровку аудио в текст.

При уменьшении скорости воспроизведения ролика, транскрибация производится с наименьшими ошибками.
Набирая текст вручную, идеально подходит схема: прослушал → запомнил → записал. Эта схема позволит не откладывать редактирование на потом, а сделать все сразу.
Использование команд, помогающих добавлять часть текста

Представим себе, что в тексте, часто попадается слово «Транскрибация», добавляем его в команду и при помощи горящих клавиш выводим в нужных местах.
Не важно набираете в ручную или при помощи онлайн программ, все правки и корректировки делам в самом конце.

Приложение Windows – VOCO

Эта программа распознавания речи профессионального уровня.

Основной функционал Windows-приложения перевода аудио в текст VOCO:

  • Голосовой набор текста с микрофона
  • Расстановка знаков препинания устными командами
  • Распознавание знаков препинания в аудиофайлах. Это круто!
  • Само-собой есть распознавание речи из аудиозаписей.
  • Есть сопряжение с Word
  • Можно подключать словари
  • Ну и есть свой, достаточно большой словарный запас

Короче, программа просто находка для профессионального транскрибатора! Но программа платная! Правда, есть демо-версия, в которой Вы можете ознакомиться с основным функционалом бесплатно. Правда, нужно подать заявку скачивание демо-версии Voco.

Способ 5. LossPlay

Для корректной работы программы дополнительно потребуется установить кодеки: K-Lite Codec Pack и QuickTime. Рекомендации по их установке есть на сайте разработчика LossPlay. 

Плюсы программы:

  • транскрибация аудио и видео файлов
  • наличие горячих клавиш
  • возможность менять скорость записи 
  • наличие тайм-кодов
  • работа с текстовым редактором Word

Минус всего один  — набор текста выполняется вручную, то есть слушаем запись и набираем текст на клавиатуре.

Шаг 1. Заходим на сайт разработчика LossPlay.  Нажимаем «Скачать».

Шаг 2. Далее открываем скачанный файл и устанавливаем программу на свой компьютер. Также скачиваем и устанавливаем необходимые кодеки. 

Шаг 3. Запускаем плеер. Медиа файл можно добавить нажав внизу на кнопку «+», либо перетащить его мышкой, либо же воспользоваться горячими клавишами Ctrl+Shift+O.

Плеер содержит 7 основных кнопок управления:

  • Перемотка
  • Пауза
  • Стоп
  • Добавление и удаление файлов в плейлист
  • Регулятор громкости
  • Регулятор баланса
  • Регулятор скорости

Шаг 4. С помощью вкладки «Настройки» — «Общие» можно настроить Тайм-код  — указатель времени, который вставляется в текст транскрибации. Он нужен для того, чтобы найти конкретный момент в записи, при этом не переслушивая весь медиа файл, а также для сопоставления текста и записи.

Шаг 5. Открываем документ Word и набираем текст под диктовку плеера.

 

Во время транскрибации окно плеера можно свернуть, а работу регулировать с помощью горячих клавиш. При этом есть возможность пользоваться как заводскими настройками клавиш, так и настроить их для себя самостоятельно. 

Благодаря горячим клавишам в текстовом редакторе удобно работать, не обращаясь к самому плееру. С их помощью легко перемотать прослушиваемый отрывок назад, поставить на паузу или замедлить воспроизведение, даже не переключаясь на окно плеера.

Теперь вы знаете 5 сервисов, которые помогают сделать транскрибацию. 

Их основные отличия рассмотрим в сводной таблице. Выбирайте тот, который понравится и будет максимально удобен лично вам.

+/- Google Docs Dictation.io Speechpad.ru Realspeaker LossPlay
требуется ли установка +
распознавание речи + + + +
допускает ошибки + + + + +
сервис платный +
корректно работает/
устанавливается со всех браузеров

Все перечисленные способы существенно облегчают кропотливый труд транскрибатора. Но ни один сервис не справится с этой работой без вашего участия. Всё равно придется проверять текст, редактировать его и исправлять ошибки. Только так задание будет выполнено качественно и безупречно. 

На мой взгляд, больше всего ошибок допускает голосовой ввод в Google Docs. Ошибки при работе с программой LossPlay зависят от грамотности самого транскрибатора. Примерно одинаковое количество ошибок допускается в остальных сервисах. На результат транскрибации во многом влияет и качество исходной записи. 

The following two tabs change content below.

  • Елена Кревская: «Мне не жаль отпускать в мир свои тексты» — 20/11/2020
  • Самозанятость для статейного автора: плюсы и минусы — 18/11/2020
  • 6 лучших книг для копирайтера в 2020 году — 31/07/2020

Что будем использовать

Возь­мём сер­вис Yandex SpeechKit — он поз­во­ля­ет рас­по­знать или озву­чить любой текст на несколь­ких язы­ках. Имен­но на этом движ­ке рабо­та­ет голо­со­вой помощ­ник «Али­са»: она исполь­зу­ет его, что­бы пони­мать, что вы гово­ри­те, и гово­рить что-то в ответ.

SpeechKit — часть «Яндекс.Облака», боль­шо­го ресур­са, кото­рый уме­ет решать мно­го задач. Напри­мер, кро­ме рабо­ты с тек­стом и голо­сом «Обла­ко» может предо­ста­вить вир­ту­аль­ную вычис­ли­тель­ную маши­ну и хра­ни­ли­ще дан­ных, рабо­тать с Docker-образами, защи­щать от хакер­ских атак, управ­лять база­ми дан­ных и мно­го чего ещё.

Так как всё это — серьёз­ные тех­но­ло­гии для про­грам­ми­стов и IT-спецов, мно­гое нуж­но будет делать в команд­ной стро­ке. Для это­го мы сей­час пока­жем каж­дый шаг и объ­яс­ним, для чего имен­но мы это дела­ем. В резуль­та­те научим­ся отправ­лять фай­лы в «Обла­ко» и полу­чать отту­да гото­вый текст.

Вся пер­вая часть про­ек­та у нас как раз и будет про настрой­ку «Яндекс.Облака» и под­го­тов­ку к работе.

ВИДЫ ФОРМАТОВ

Расшифровывать чаще
всего приходится форматы двух видов:

Аудиофайлы.

Видеофайлы.

Набираем в поисковике
Google «форматы аудио» и видим следующую картину.

Все аудио форматы
выделяют в три группы: без сжатия, со сжатием без потерь и с потерями.

На биржах заказы, чаще
всего, даются в двух форматах – это WAV и MP3. Отличить их на слух, даже если
вы музыкант, у вас вряд ли получится.

Но, далеко, не все
программы поддерживают все форматы, поэтому перед использованием нужно всё
внимательно проверять.

Видео форматы – это
AVI, MP4, MOV, FLV, DVD, MPEG2 и прочие. Каждый формат имеет ещё несколько
расширений.

Маленький совет: когда будете
подбирать себе заказы, то очень важно, чтобы выбранные форматы проигрывались на
бытовых устройствах, т.е. проигрывателях, телевизоре и т.д., иначе он может не
залиться в программу, которой вы пользуетесь, а перекодировать один видео формат
в другой, для новичка, очень сложно.. Сделать это сразу
правильно, избежав ошибок, у вас вряд ли получится

Сделать это сразу
правильно, избежав ошибок, у вас вряд ли получится.

Но, чаще всего
используются файлы, залитые на Ютуб. Предлагается два варианта действий:

Сразу указывается ссылка, которую нужно просто скопировать и вставить в
свою программу.

Для начала необходимо скачать расширение, которое позволяет использовать
популярные и наиболее часто используемые видео форматы. Например, SaveFrom.net.

Расширение удобно тем,
что можно использовать сразу два формата — видео и аудио.

Субтитры Ютуб

Если Вам лень устанавливать какие-либо программы, а Вам нужно срочно провести транскрибацию аудиозаписи в текст, то… то просто воспользуйтесь Ютубом. Точнее субтитрами Ютуб. Как это сделать? Все просто.

Шаг 1. Залейте видео на свой канал Ютуб.

Шаг 2. Включите субтитры

Шаг 3. Нажать кнопку “Посмотреть расшифровку видео”

Шаг 4. Копируйте себе в блокнот полученный текст.

Шаг 5. Удалите метки времени и “причешите текст. Вот и все.

Субтитры Ютуб создает достаточно качественные. Единственное, много времени уходит на приведение текста в порядок. Но и в других программах, расстановка знаков препинания и приведение текста к нормальному виду тоже нужно делать. Так что…

«Gboard» — мобильное приложение преобразователь записи в текст

Мобильное приложение «Gboard» является популярным приложением для Android и iOS, позволяя осуществлять длительный голосовой ввод с дальнейшей трансформацией сказанного в стандартный текст (конвертация голоса в текст). Для задействования режима голосового ввода достаточно нажать и удерживать сенсорную клавишу пробела (Space) на клавиатуре, после чего вы сможете говорить так долго как захотите — всё сказанное вами будет переведено программой в текст.


Для активации голосового ввода в «Gboard» достаточно нажать и удерживать пробел

Приложение абсолютно бесплатно, поддерживает несколько десятков языков, среди которых и русский.

Стационарные программы для голосового ввода

Кроме перечисленных сервисов существуют разнообразные стационарные программы, позволяющие перевести речь в текст. Обычно они имеют в своей структуре встроенный механизм для распознавания текста, работают с множеством языков, и во многих случаях не требуют постоянного подключения к Интернету.

Среди таких программ отметим следующие:

  • «Dictate» — специальная программа-надстройка для MS Word. После установки программы в системе откройте ваш Ворд, и выберите в нём вкладку «Dictation». Появится значок с микрофоном. Рядом с последним выберите русский язык и начните запись;
  • «Dragon Professional Individual» (Windows, Mac) – одна из лучших платных программ в своём сегменте. Включает множество инноваций, поддерживает различные голосовые команды формата, имеют мощные возможности транскрибации;
  • «Braina Pro» (Windows) – это целый виртуальный ассистент, управляемый искусственным интеллектом. Вы можете диктовать ему текст более чем на 100 языках, он отлично понимает различные компьютерные команды, устанавливает будильник, служит как словарь и тезаурус;
  • «E-speaking.com» (Windows) — Используя программный интерфейс «Microsoft Speech Application» и «Net Framework», программа «e-Speaking» позволяет использовать голос для управления ПК, диктовки документов и электронных писем, прочтения текста вслух. Поддерживается множество голосовых команд для управления ПК.

Заказ перевода аудио в текст у специалистов

Вообще, мне достаточно часто нужна услуга по расшифровке аудиозаписей в текст. Нужно переводить в текст мои видеоуроки. Иногда я сначала наговариваю мысли для статьи на диктофон, а потом транскрибирую. Можно конечно заниматься этим самостоятельно с помощью программ, но это отнимает много времени. Почему? Потому что программы для транскрибации не всегда верно расшифровывают слова и приходится долго править полученный текст, форматировать его, вставлять знаки препинания и таймкоды.

Поэтому я нанимаю фрилансеров. Но.. И тут есть “засады”! Очень сложно найти “правильного” фрилансера, который бы делал все четко и в срок. И особенная проблема в том, что фрилансеры (особенно молодые) плохо дружат с русским языком. И часто делают еще больше ошибок, чем программы 🙁 Поэтому я стал искать специализированный сервис, который занимается ручным переводом аудио в текст. И чтобы качественно и недорого. И… Я похоже, нашел такую фирму.

Сейчас я расскажу, чем мне приглянулся данный сервис. Итак, смотрим. Кстати, Все картинки увеличиваются по клику…

Это пока единственный российский сервис по транскрибации аудио с личными кабинетами, который “заточен” под бизнесменов, журналистов, юристов и т.п. То есть, для тех людей, для которых качество и скорость расшифровки аудиофайлов являются самыми важными факторами.

Из “приятных плюшек” хочу отметить еще три, особо мне понравившихся.

  • Тестовый заказ. Бесплатный. Для проверки качества работы этого сервиса. Можете попробовать, если не уверены в качестве расшифровки.
  • Работа с PayPal. Это означает, что с сервисом могут работать “забугорные” люди. Кстати, проблема с платежами, нередка в случае когда пытаются оплатить услуги российского сервиса из-за рубежа. Ну и PayPal дополнительно защищает Ваши покупки.
  • Работа с аудиозаписями из судов. Для меня это ничего не говорит, но мой друг, юрист, говорит, что это крутая фишка..

Короче, не буду навязывать Вам этот сервис. Лучше сами посмотрите и решите, стоит ли с ним работать.

Ну и как обещал выше, рекомендую посмотреть это видео, где я подробней разбираю этот сайт.

А вот и подоспели итоги полной расшифровки моего видеоролика. Посмотрим, что получилось!

Как увеличить доход от расшифровки аудио

Как я уже писал, базовый заработок на транскрибации аудио в текст не очень высок. Однако, его можно значительно увеличить. Первый способ я уже писал. Это увеличить свой рейтинг на биржах фриланса и наработать базу постоянных клиентов.

А второй способ – это брать более дорогие заказы на расшифровку аудио. Что влияет на стоимость заказов?

  • Некачественная запись звука. В помещении шумно, плохой микрофон или спикер далеко от микрофона.
  • Нужно сделать работу очень срочно. Обычно заказчика на Воркзилле или Кворке дают на транскрибацию около суток. Если просят быстрее, то смело увеличивайте цену работы.
  • Если разговаривает несколько человек. Обычно это полный пипец! Особенно, если эти люди говорят одновременно! Это очень сложная работа!
  • Если Заказчик хочет, чтобы Вы не просто дали ему расшифровку в виде текста, а еще и “причесали” документ. То есть, чтобы сделали форматирование текста, грамотно расставили знаки препинания  и т.п.
  • Если спикер с дефектами речи. Заикание, невнятная дикция, переизбыток слов-паразитов и т.п.
  • Спикер разговаривает на специфическом научном сленге. Вы просто можете не знать этих слов!
  • Ну и конечно же, если запись на иностранном языке. Тут даже без комментариев. Все понятно, что гораздо сложнее.

Короче, если есть такие засады, смело увеличивайте стоимость (и время) транскрибации аудио в видео в несколько раз!

Еще немного фишек для поиска заказов на транскрибацию биржах фриланса:

  • Первое время соглашайтесь на низкие цены. Главное – быстро нарастить  свой рейтинг.
  • Делайте работу качественно. Заказчики смотрят отзывы Исполнителя. Один негативный отзыв может перечеркнуть хорошую работу нескольких месяцев
  • Не работайте с проблемными заказчиками!
  • Обязательно детально уточняйте задание ПЕРЕД тем, как взять его!
  • Сделайте себе небольшое портфолио по выполненной транскрибации и покажите его заказчикам.

Все это позволит Вам стать профессиональным транскрибатором и зарабатывать себе не только на хлеб, но и на масло  с икрой 🙂

Заключение

В нашей статье мы разобрали, каким образом выполнить конвертацию голоса в текст в режиме онлайн, познакомились с соответствующими сервисами, а также со схожими по функционалу стационарными и мобильными программами. Большинство таких программ для своей работы используют инструментарий от Google, потому имеют приблизительно схожее качество распознавания. Учтите, что для достижения высокого уровня распознавания следует использовать внешний микрофон от признанного производителя. Встроенные в ноутбуки и гаджеты микрофоны плохо работают со звуком, что неминуемо сказывается на качестве получаемого на выходе текста.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Adblock
detector