Как преобразовать голос в текст?

  1. Программа распознавания речи Voco
  2. Преобразование голоса в текст при помощи MSpeech
  3. Преобразование аудиозаписей в текст на RealSpeaker.net
  4. Преобразование голоса на Speechpad.ru
  5. Ручное транскрибирование голоса в текст

Многие пользователи современных смартфонов настолько привыкли к голосовым помощникам, преобразующим речь в текст, что хотели бы иметь подобный функционал и у себя на компьютере. В ОС Windows есть встроенный голосовой помощник — Cortana, но в русскоязычных дистрибутивах операционной системы функция распознавания речи на данный момент не работает. Потому остается использовать сторонние программы или онлайн-сервисы по преобразованию голоса в текст.

Программа распознавания речи Voco

Voco — отечественная программа, позиционируемая разработчиками как профессиональное средство преобразования голоса в текс, которое по скорости работы превосходит в 1,5-3 раза даже самого опытного стенографиста. Кроме того, при помощи данной программы можно преобразовывать в текст ранее созданные аудиозаписи.

Это платное приложение с возможностью пробного использования без функциональных ограничений в течение 14 дней. Программа работает только в 64-битных версиях Windows 7/8/10. При этом для ее нормального функционирования требуется довольно мощный процессор (Intel Core i5 или мощнее). Процессоры с низкой производительностью не смогут обрабатывать речь пользователя достаточно быстро.

Как пользоваться программой Voco?

Все, что требуется для преобразования голоса в текст при помощи Voco:

  • Открыть любой установленный на компьютере текстовый редактор (подойдет даже обычный Блокнот). Также можно кликнуть по любому текстовому полю (например, в браузере).
  • Запустить функцию распознавания речи (по умолчанию — это двукратное нажатие клавиши "Ctrl").
  • Говорить в микрофон. Программа Voco начнет автоматически преобразовывать речь пользователя, вписывая слова в текстовый редактор или текстовое поле, находящееся в фокусе.

Voco

Программа Voco автоматически проставляет пробелы между словами, союзами, предлогами, частицами, а также распознает в речи пользователя команды на проставление знаков препинания.

Программа Voco

Приложение Voco способно "обучаться". Если задействовать соответствующую функцию в настройках, программа будет анализировать тексты и речевую модель пользователя, что позволит в дальнейшем улучшить качество и увеличить скорость распознавания голоса.

Настройки Voco

Кроме того, программа Voco способна преобразовывать в текст голос из звукозаписей, однако для этого на компьютере должен быть установлен и специальным образом настроен (инструкцию можно найти во встроенной справке) редактор Microsoft Word версии 2010 или выше.

Преобразовывание звукозаписей в текст в программе Voco

Преобразование голоса в текст при помощи MSpeech

MSpeech — программа для распознавания речи с открытым исходным кодом, понимающая более 50 языков. В качестве модуля распознавания используется Google Voice Api (тот же самый, что и в мобильных устройствах под управлением Android). Т.е. приложение не работает без подключения к интернету.

В отличие от предыдущей программы, MSpeech не преобразовывает речь в режиме реального времени. Вместо этого она сначала осуществляет запись голоса пользователя, отправляет его на сервисы Google, где происходит преобразование, а затем вписывает полученный результат в текстовое поле любого активного окна.

Программа MSpeech очень проста в использовании:

  • Запускаем функцию записи голоса, используя горячие клавиши (по умолчанию — "Ctrl + Alt + F10") либо путем нажатия на кнопку "Начать запись" в основном окне приложения.

MSpeech

  • По завершению произношения речи просто выключаем запись. Программа автоматически вставит текст в открытый текстовый редактор или текстовое поле, на котором находится фокус.

Также MSpeech позволяет запускать и останавливать выполнение любых внешних программ, открывать файлы, выполнять команды командной строки Windows и преобразовывать текст в голос. Команды можно создавать самому в неограниченном количестве, используя соответствующую функцию в настройках приложения.

Программа MSpeech

Преобразование аудиозаписей в текст на RealSpeaker.net

Условно-бесплатный веб-сервис

Онлайн-сервис RealSpeaker.net предоставляет возможность преобразования голоса в текст из загруженных пользователем аудио- и даже видеозаписей. Записи продолжительностью до 1,5 минуты можно преобразовывать бесплатно. За преобразование аудио- или видеозаписей более этого времени придется заплатить по тарифу в 8 рублей за минуту (цена на момент написания обзора). Однако продолжительные аудио- и видеофайлы всегда можно разделить на фрагменты по 90 секунд в любом подходящем редакторе, а затем загружать их на сервис RealSpeaker по отдельности.

Пользоваться данным сервисом очень просто:

  • Выбираем нужный язык для преобразования на главной странице сервиса и жмем кнопку "Продолжить".

RealSpeaker.net

  • Загружаем на сайт аудио- или видеофайл, который следует преобразовать в текст.

Онлайн-сервис RealSpeaker.net

  • На новой странице отобразится список загруженных на сайт файлов, причем среди них будут и те, что загружены другими пользователями. Находим нашу аудио-/видеозапись и нажимаем на кнопку "Транскрибировать" напротив ее названия.

Веб-сервис RealSpeaker.net

  • По завершению преобразования откроется новая страница с полученным текстом, в котором будут отсутствовать знаки препинания. Для этого разработчики сервиса предусмотрели текстовый редактор. Моно внести в текст правки прямо на сайте либо скопировать его в любой другой редактор на компьютере.

Результат преобразования голоса в текст на RealSpeaker.net

Преобразование голоса на Speechpad.ru

Условно-бесплатный онлайн-сервис

Speechpad.ru (или "Голосовой блокнот") — онлайн-сервис, использующий для преобразования голоса в текста все тот же Google Voice Api. Через браузер данным сервисом можно пользоваться бесплатно и без ограничений. Однако разработчики также предлагают установить плагин для браузера Google Chrome, который можно настроить таким образом, чтобы он взаимодействовал с любыми программами на компьютере, т.е. обеспечивал автоматический ввод текста в редакторы и текстовые поля. Но эту функцию мы рассматривать не будем, остановимся на онлайн-преобразовании голоса:

  • В нижней части главной страницы Speechpad.ru расположен модуль преобразования голоса в текст. Нажмите на кнопку "Включить запись" и начните произносить речь в микрофон (браузер может запросить доступ к микрофону — нажмите на кнопку согласия, если покажется окно с запросом).

Speechpad.ru

  • По завершению произношения нажмите на кнопку "Отключить запись". Надиктованный текст переместится в "Результирующее поле", где его можно будет отредактировать и скачать в виде текстового документа.

Сервис Speechpad.ru

Ручное транскрибирование голоса в текст

Существует ряд специализированных программ, предназначенных для ручного транскрибирования речи в текст. Такие приложения не способны автоматически преобразовывать голос в текст, однако делают более удобным выполнение задач по написанию текстов под диктовку, когда в качестве диктора выступает аудиозапись.

Программы для ручного транскрибирования аудио обычно представляют собой мультимедиа-проигрыватель. Некоторые приложения имеют встроенный текстовый редактор, служащий для написания в него текстов, у других — редактор отсутствует, но предусмотрена возможность управления посредством глобальных горячих клавиш.

Для примера рассмотрим функционал бесплатной программы LossPlay. Текстовый редактор у нее отсутствует, зато имеется возможность использования этого приложения в качестве мультимедиа-проигрывателя, т.к. он поддерживает множество форматов аудио- и видеофайлов, а также имеет свойственный видео- и аудиоплеерам пользовательский интерфейс.

LossPlay

Функционал LossPlay, относящийся к транскрибированию (все перечисленные функции запускаются горячими клавишами, которые можно настроить по желанию):

  • Возможность ускорения и замедления проигрываемого аудио или видеоролика.
  • Два режима перемотки аудио/видео, в каждом из которых время устанавливается вручную.

Программа LossPlay

  • Управление громкостью левого и правого канала по отдельности (удобно при транскрибировании диалогов, записанных в разделенном двухканальном режиме).
  • Создание скриншота текущего кадра видео и его автоматическое сохранение на диск.
  • Переключение аудиодорожек и субтитров в видео, если таковые имеются.
  • Одновременная работа с 4-мя плейлистами, при этом в них могут быть указаны, как аудио-, так и видеофайлы.
  • Создание до 30 отдельных текстовых строк неограниченной длины, вставляемых в печатаемый текст посредством горячих клавиш.
  • Вставка в печатаемый текст тайм-кода (текущей временной позиции проигрываемого медиафайла).

Настройки программы LossPlay

  • Отслеживание буфера обмена и сохранение скопированного текста в базе с возможностью последующей вставки, всего, что ранее копировал пользователь.
  • Наличие таких удобных опций, как отмотка воспроизведения на секунду назад при снятии с паузы, автоматическая остановка воспроизведения каждые несколько секунд на определенное время (оба параметра задаются вручную), автоматическая вставка тайм-кода.

Программа для транскрибирования аудио LossPlay

Категории

Оставить комментарий

1 комментарий
роберт Avatar

А я для озвучки текстов пользуюсь современным сервисом - https://voicebot.su. Устраивает на 100%. Работает без дополнительных настроек и требований, запускается даже на слабом компьютере. Текст озвучивается голосом на русском, казахском, турецком или английском языке.