Как преобразовать голос в текст?
- Программа распознавания речи Voco
- Преобразование голоса в текст при помощи MSpeech
- Преобразование аудиозаписей в текст на RealSpeaker.net
- Преобразование голоса на Speechpad.ru
- Ручное транскрибирование голоса в текст
Многие пользователи современных смартфонов настолько привыкли к голосовым помощникам, преобразующим речь в текст, что хотели бы иметь подобный функционал и у себя на компьютере. В ОС Windows есть встроенный голосовой помощник — Cortana, но в русскоязычных дистрибутивах операционной системы функция распознавания речи на данный момент не работает. Потому остается использовать сторонние программы или онлайн-сервисы по преобразованию голоса в текст.
Программа распознавания речи Voco
Voco — отечественная программа, позиционируемая разработчиками как профессиональное средство преобразования голоса в текс, которое по скорости работы превосходит в 1,5-3 раза даже самого опытного стенографиста. Кроме того, при помощи данной программы можно преобразовывать в текст ранее созданные аудиозаписи.
Это платное приложение с возможностью пробного использования без функциональных ограничений в течение 14 дней. Программа работает только в 64-битных версиях Windows 7/8/10. При этом для ее нормального функционирования требуется довольно мощный процессор (Intel Core i5 или мощнее). Процессоры с низкой производительностью не смогут обрабатывать речь пользователя достаточно быстро.
Как пользоваться программой Voco?
Все, что требуется для преобразования голоса в текст при помощи Voco:
- Открыть любой установленный на компьютере текстовый редактор (подойдет даже обычный Блокнот). Также можно кликнуть по любому текстовому полю (например, в браузере).
- Запустить функцию распознавания речи (по умолчанию — это двукратное нажатие клавиши "Ctrl").
- Говорить в микрофон. Программа Voco начнет автоматически преобразовывать речь пользователя, вписывая слова в текстовый редактор или текстовое поле, находящееся в фокусе.
Программа Voco автоматически проставляет пробелы между словами, союзами, предлогами, частицами, а также распознает в речи пользователя команды на проставление знаков препинания.
Приложение Voco способно "обучаться". Если задействовать соответствующую функцию в настройках, программа будет анализировать тексты и речевую модель пользователя, что позволит в дальнейшем улучшить качество и увеличить скорость распознавания голоса.
Кроме того, программа Voco способна преобразовывать в текст голос из звукозаписей, однако для этого на компьютере должен быть установлен и специальным образом настроен (инструкцию можно найти во встроенной справке) редактор Microsoft Word версии 2010 или выше.
Преобразование голоса в текст при помощи MSpeech
MSpeech — программа для распознавания речи с открытым исходным кодом, понимающая более 50 языков. В качестве модуля распознавания используется Google Voice Api (тот же самый, что и в мобильных устройствах под управлением Android). Т.е. приложение не работает без подключения к интернету.
В отличие от предыдущей программы, MSpeech не преобразовывает речь в режиме реального времени. Вместо этого она сначала осуществляет запись голоса пользователя, отправляет его на сервисы Google, где происходит преобразование, а затем вписывает полученный результат в текстовое поле любого активного окна.
Программа MSpeech очень проста в использовании:
- Запускаем функцию записи голоса, используя горячие клавиши (по умолчанию — "Ctrl + Alt + F10") либо путем нажатия на кнопку "Начать запись" в основном окне приложения.
- По завершению произношения речи просто выключаем запись. Программа автоматически вставит текст в открытый текстовый редактор или текстовое поле, на котором находится фокус.
Также MSpeech позволяет запускать и останавливать выполнение любых внешних программ, открывать файлы, выполнять команды командной строки Windows и преобразовывать текст в голос. Команды можно создавать самому в неограниченном количестве, используя соответствующую функцию в настройках приложения.
Преобразование аудиозаписей в текст на RealSpeaker.net
Условно-бесплатный веб-сервис
Онлайн-сервис RealSpeaker.net предоставляет возможность преобразования голоса в текст из загруженных пользователем аудио- и даже видеозаписей. Записи продолжительностью до 1,5 минуты можно преобразовывать бесплатно. За преобразование аудио- или видеозаписей более этого времени придется заплатить по тарифу в 8 рублей за минуту (цена на момент написания обзора). Однако продолжительные аудио- и видеофайлы всегда можно разделить на фрагменты по 90 секунд в любом подходящем редакторе, а затем загружать их на сервис RealSpeaker по отдельности.
Пользоваться данным сервисом очень просто:
- Выбираем нужный язык для преобразования на главной странице сервиса и жмем кнопку "Продолжить".
- Загружаем на сайт аудио- или видеофайл, который следует преобразовать в текст.
- На новой странице отобразится список загруженных на сайт файлов, причем среди них будут и те, что загружены другими пользователями. Находим нашу аудио-/видеозапись и нажимаем на кнопку "Транскрибировать" напротив ее названия.
- По завершению преобразования откроется новая страница с полученным текстом, в котором будут отсутствовать знаки препинания. Для этого разработчики сервиса предусмотрели текстовый редактор. Моно внести в текст правки прямо на сайте либо скопировать его в любой другой редактор на компьютере.
Преобразование голоса на Speechpad.ru
Условно-бесплатный онлайн-сервис
Speechpad.ru (или "Голосовой блокнот") — онлайн-сервис, использующий для преобразования голоса в текста все тот же Google Voice Api. Через браузер данным сервисом можно пользоваться бесплатно и без ограничений. Однако разработчики также предлагают установить плагин для браузера Google Chrome, который можно настроить таким образом, чтобы он взаимодействовал с любыми программами на компьютере, т.е. обеспечивал автоматический ввод текста в редакторы и текстовые поля. Но эту функцию мы рассматривать не будем, остановимся на онлайн-преобразовании голоса:
- В нижней части главной страницы Speechpad.ru расположен модуль преобразования голоса в текст. Нажмите на кнопку "Включить запись" и начните произносить речь в микрофон (браузер может запросить доступ к микрофону — нажмите на кнопку согласия, если покажется окно с запросом).
- По завершению произношения нажмите на кнопку "Отключить запись". Надиктованный текст переместится в "Результирующее поле", где его можно будет отредактировать и скачать в виде текстового документа.
Ручное транскрибирование голоса в текст
Существует ряд специализированных программ, предназначенных для ручного транскрибирования речи в текст. Такие приложения не способны автоматически преобразовывать голос в текст, однако делают более удобным выполнение задач по написанию текстов под диктовку, когда в качестве диктора выступает аудиозапись.
Программы для ручного транскрибирования аудио обычно представляют собой мультимедиа-проигрыватель. Некоторые приложения имеют встроенный текстовый редактор, служащий для написания в него текстов, у других — редактор отсутствует, но предусмотрена возможность управления посредством глобальных горячих клавиш.
Для примера рассмотрим функционал бесплатной программы LossPlay. Текстовый редактор у нее отсутствует, зато имеется возможность использования этого приложения в качестве мультимедиа-проигрывателя, т.к. он поддерживает множество форматов аудио- и видеофайлов, а также имеет свойственный видео- и аудиоплеерам пользовательский интерфейс.
Функционал LossPlay, относящийся к транскрибированию (все перечисленные функции запускаются горячими клавишами, которые можно настроить по желанию):
- Возможность ускорения и замедления проигрываемого аудио или видеоролика.
- Два режима перемотки аудио/видео, в каждом из которых время устанавливается вручную.
- Управление громкостью левого и правого канала по отдельности (удобно при транскрибировании диалогов, записанных в разделенном двухканальном режиме).
- Создание скриншота текущего кадра видео и его автоматическое сохранение на диск.
- Переключение аудиодорожек и субтитров в видео, если таковые имеются.
- Одновременная работа с 4-мя плейлистами, при этом в них могут быть указаны, как аудио-, так и видеофайлы.
- Создание до 30 отдельных текстовых строк неограниченной длины, вставляемых в печатаемый текст посредством горячих клавиш.
- Вставка в печатаемый текст тайм-кода (текущей временной позиции проигрываемого медиафайла).
- Отслеживание буфера обмена и сохранение скопированного текста в базе с возможностью последующей вставки, всего, что ранее копировал пользователь.
- Наличие таких удобных опций, как отмотка воспроизведения на секунду назад при снятии с паузы, автоматическая остановка воспроизведения каждые несколько секунд на определенное время (оба параметра задаются вручную), автоматическая вставка тайм-кода.
А я для озвучки текстов пользуюсь современным сервисом - https://voicebot.su. Устраивает на 100%. Работает без дополнительных настроек и требований, запускается даже на слабом компьютере. Текст озвучивается голосом на русском, казахском, турецком или английском языке.