Реализация в среде Windows поддержки русскоязычного голосового ввода

1. «Ок, Алиса» и голосовой поиск Google для поисковых запросов
2. Веб-сервис Web Speech API от Google
3. «Голосовой блокнот» Speechpad.Ru
4. Интеграция Speechpad в веб-формы браузера
5. Интеграция Speechpad в среду Windows
5. Бесплатные альтернативы интеграции голосового ввода в среду Windows

Друзья, недавно мы рассматривали одно из нововведений, привнесенных в Windows 10 обновлением Fall Creators Update - штатную возможность голосового ввода данных на английском языке. Поддержку голосового ввода на украинском языке компания Microsoft обещает в будущем, но не уточняет, близко или далеко это будущее просматривается. Возможно, это будет тогда, когда и Кортан сможет говорить, а главное, понимать украинский. Ждать, пока Microsoft научит Windows 10 понимать наших не стоит. Если чего-то нет в среде самой системы, это практически всегда можно реализовать за счет сторонних программных средств. Собственно, о них мы и будем говорить в этой статье. Ниже рассмотрим различные способы, как можно с помощью встроенного в ноутбук или подключенного к ПК микрофона вводить поисковые запросы голосом и диктовать текст документов.

1. «Ок, Алиса» и голосовой поиск Google для поисковых запросов

Возможность голосового ввода поисковых запросов давным-давно присутствует в поисковой системе Google.

Непонятно, почему компания Google до сих пор не интегрировала эту технологию в интерфейс YouTube. Но в любом случае видеоролики можно искать в самом поисковике, говоря ключевые запросы. Просто потом нужно будет в результатах выдачи переключаться на вкладку «Видео». Львиная доля поисковых выдач по известным причинам все равно будет с YouTube.

Успел уже познакомиться с Алисой - громким голосовым помощником от Яндекса - и вовсе не нужно отправляться на сайт поисковика в окне браузера. После установки программы поисковое поле Яндекса с возможностью голосового ввода запросов появится прямо на панели задач Windows. А на редкие несложные вопросы Алиса сможет ответить и без поисковика, не выходя за пределы своего диалогового окна.

2. Веб-сервис Web Speech API от Google

В технологии Web Speech API, с помощью которой в поисковике Google реализован голосовой ввод запросов, есть свой веб-интерфейс по адресу:
https://www.google.com/intl/ja/chrome/demos/speech.html

Функционал сервиса минималистичный: в нем присутствует кнопка включения микрофона и результирующее поле, где затем будет отображаться распознанный текст.

Функционал сервиса минималистичный: в нем присутствует кнопка включения микрофона и результирующее поле, где затем будет отображаться распознанный текст

Но в этом выводе поле нельзя вносить правки. По итогам получим результаты распознавания. И сможем изменить их только в каком-то текстовом редакторе или форме ввода данных. Кнопка ниже результирующего поля «Copy and Paste» завершает текущую сессию ввода и на весь распознанный текст автоматически ставит блок выделения. Так сделано для удобства копирования в буфер.

Так сделано для удобства копирования в буфер

Для распознанного текста доступна еще одна возможность, реализованная кнопкой создания электронного письма. Она запускает почтовый клиент, установленный в среде Windows такой по умолчанию, создает новое письмо и переносит в него распознанный текст.

Примечательно, что Web Speech API может распознавать некоторые знаки пунктуации, как минимум точку и запятую. Так что во время диктовок в местах вставки точек и запятых их можно просто проговаривать.

Отсутствие возможности редактирования текста внутри результирующего поля делает использование интерфейса Web Speech API не совсем удобным для больших объемов набора текста. Для длительных диктовок лучше использовать веб-интерфейс сервиса «Google Документы", в который технология Web Speech API встроенная. В «Google Документах» можно и вводить текст голосом, и тут же править его, и еще попутно форматировать документ.

В «Google Документах» можно и вводить текст голосом, и тут же править его, и еще попутно форматировать документ

3. «Голосовой блокнот» Speechpad.Ru

На базе технологии Web Speech API работает еще сайт - самый популярный и наиболее функциональный сервис голосового ввода данных «Голосовой блокнот». В числе основных его функций:

Поддержка нескольких языков, включая украинский;
Результирующее поле распознавания голоса с возможностью редактирования текста, его перевода на другие языки, выгрузки результатов в TXT-файл;
Вывод распознанных фраз в буфер обмена;
Транскрибация;
Интеграция в веб-формы Chromium-браузеров;
Интеграция в среду Windows и Linux.

Плюс к этому всему, в «Голосовом блокноте» опция ввода голоса включается и отключается только после нажатия соответствующей кнопки. Эта опция не деактивируется сама по себе, как только мы на время Задумаемся в поисках точного формулирования мысли, как это происходит в других сервисах на базе Web Speech API.

Чтобы начать использовать возможности голосового блокнота », необходимо авторизоваться на сайте сервиса. Для этого нужно либо пройти регистрацию, или задействовать имеющийся аккаунт Яндекса.

Для этого нужно либо пройти регистрацию, или задействовать имеющийся аккаунт Яндекса

Далее активируем прослушивания микрофона кнопкой «Активировать запись».

Далее активируем прослушивания микрофона кнопкой «Активировать запись»

И отслеживаем в конечном поле распознанный текст.

4. Интеграция Speechpad в веб-формы браузера

В «голосового блокнота» является расширение для Chrome и браузеров, поддерживающих работу с контентом с его магазина.

После внедрения этого расширения в контекстном меню веб-форм ввода текста появится пункт «Speechpad». Жмем кнопку и говорим в микрофон. Таким образом можем, например, надиктовывать заметки в Google Keep.

Или общаться с людьми в соцсетях.

Единственное «но» - расширение «голосового блокнота» работает не во всех веб-формах сайтов.

5. Интеграция Speechpad в среду Windows

Возможности веб-сервиса «Голосовой блокнот» можно интегрировать в среду Windows. И осуществлять набор текста голосом в любой программе операционной системы - штатном блокноте, Microsoft Word, других текстовых редакторах. Распознана язык без посредничества веб-сервисов или буфера обмена будет вставляться прямо в редактируемые документы. Однако такая функция Speechpad не бесплатна. Каждый зарегистрированный пользователь может прежде протестировать интегрированный в среду своей операционной системы функционал сервиса. Создатели Speechpad предлагают двухдневный тестовый период бесплатно. Как непосредственно осуществляется интеграция «голосового блокнота» в операционные системы, в частности, в Windows, подробно описывается на сайте самого Speechpad. Кликаем знак у опции интеграции.

И проходим все описываемые в инструкции шаги:

Устанавливаем вышеуказанное расширение сервиса;
Скачиваем пакет файлов интеграции;
Распаковываем архив и запускаем файл install_host.bat;
На сайте Speechpad.Ru заходим в кабинет пользователя;

Ru заходим в кабинет пользователя;

Жмем кнопку «Включить тестовый период».

Жмем кнопку «Включить тестовый период»

Здесь же, ниже располагаются и способы оплаты услуг сервиса, если во время тестового периода работа с ним понравится. Далее возвращаемся на главную страницу Speechpad, активируем опцию «Интеграция с OS» и жмем кнопку «начать запись».

Далее возвращаемся на главную страницу Speechpad, активируем опцию «Интеграция с OS» и жмем кнопку «начать запись»

И так каждый раз, когда нужно активировать голосовой ввод. Вот, собственно, и все. Теперь можно открывать Microsoft Word, LibreOffice Writer, другие текстовые редакторы и начинать диктовку. Распознанный текст будет появляться в окне любого активного приложения, поддерживающего ввода данных.

Важно: чтобы использовать интегрированный в систему Speechpad, нельзя закрывать вкладку сайта, в окне браузера. Закрытие последней деактивирует голосовой ввод.

5. Бесплатные альтернативы интеграции голосового ввода в среду Windows

Которые могут быть бесплатные альтернативы интеграции в среду Windows русскоязычного голосового ввода данных?

вариант №1

Абсолютно бесплатно на сайте Speechpad можно использовать опцию вывода распознанной языка в буфер обмена. Жмем на сайте кнопку «Включить запись» и перемещаемся в любое приложение Windows.

Теперь можем говорить отдельные фразы и вставлять из буфера клавиш Ctrl + V. Как только сделаем паузу в речи, услышим писк Speechpad, что свидетельствует о том, что фраза распознана и скопирована в буфер обмена. Такой способ работы с голосовым вводом имеет свои преимущества: при вставке отдельных фраз можно попутно редактировать текст начисто.

Как и при полноценной интеграции «голосового блокнота» в среду операционной системы, сайт Speechpad должен быть открыт в одной из вкладок браузера.

вариант №2

Работают с приложениями офисного пакета компания Microsoft может предложить свою наработку по внедрению голосового ввода - надстройку Dictate, интегрирующую в Word, Outlook и PowerPoint дополнительную вкладку меню с инструментом распознавания речи. Надстройка может распознавать речь на 20 языках, включая русский, и позволяет попутно переводить текст на 60 языков.
Сайт скачивания Dictate:
http://dictate.ms

После установки надстройки в систему необходимо перезапустить Word, если он открыт, и активировать Dictate в настройках редактора. В меню «Файл» нажимаем «Параметры», далее - «Надстройки». Из перечня надстроек выбираем WordDictate и нажимаем внизу «Перейти».

Активируем WordDictate.

Все - можем тестировать голосовой ввод. Открываем любой документ Word и перемещаемся на вкладку «Диктовка». Устанавливаем русский в качестве исходного языка, кликами кнопку со значком микрофона и говорим.

Однако наряду с бесплатностью и удобством реализации голосового ввода таким образом, к сожалению, получим и обратная сторона медали - ужасное качество самой технологии распознавания речи. Технология Microsoft по качеству серьезно отстает от Web Speech API Google.

***
Еще один бесплатный способ голосового ввода текста - запись речи в звуковой файл с последующей автоматической транскрибацией (расшифровкой в текст). Далеко на каждый может сразу изложить свои мысли структурированным литературным языком, да еще и попутно править ошибки распознавания, проставлять знаки препинания. При записи же языка на диктофон можно полностью сконцентрироваться на сути изложенного материала, а в процессе транскрибациы уже всю концентрацию внимания направить на красноречие и грамотность подачи этого материала. Но, друзья, автоматизация транскрибациы аудиозаписей - это тема уже другой, отдельной статьи.