«Яндекс» дополнил систему распознавания речи Yandex SpeechKit тремя новыми технологиями, которые делают общение человека с компьютером более полноценным. Теперь система умеет включаться по голосовой команде, понимает смысл слов, а также не только слушает пользователя, но и отвечает ему — с помощью технологии синтеза речи.

«Когда вы хотите что-то сказать конкретному человеку, вы называете его по имени. Это своего рода условный сигнал: «Эй! То, что я сейчас скажу, адресовано тебе и только тебе». В Yandex SpeechKit таким сигналом выступает команда голосовой активации. Командой может служить любое слово или фраза — всё зависит от фантазии разработчика», — сообщают разработчики.

Когда пользователь произносит команду, компьютер переходит в режим распознавания — так как понимает, что все сказанное в дальнейшем, предназначено ему. Нажимать кнопки не нужно, достаточно сказать кодовую фразу.

Голосовая активация в Yandex SpeechKit, по сути, представляет собой систему распознавания речи в миниатюре. Система запускается прямо на устройстве и не требует доступа в интернет. Она анализирует весь входящий звуковой поток на предмет наличия речи, и, если речь обнаружена, начинает искать в ней кодовую фразу. Такой подход позволяет сэкономить заряд батареи в смартфоне или планшете.

В Yandex SpeechKit добавлена технология выделения в распознанном тексте смысловых объектов. Такими объектами могут быть дата и время, имена и фамилии или адреса.

Технология позволяет управлять компьютером или смартфоном простыми фразами, которые не нужно запоминать специально. Например, «Поставь будильник на семь утра» или «Поехали на улицу Льва Толстого, дом 16». Фраза может звучать по-разному — система поймёт, что «Набери номер Ивана Ивановича» и «Позвони Ивану Ивановичу» — это одно и то же. Yandex SpeechKit умеет анализировать контекст и поэтому уяснит, что во фразе «Позвони Владимиру» имеется в виду человек, а во фразе «Поехали во Владимир» — город.

Кроме того, в Yandex SpeechKit теперь есть технология синтеза речи — она позволяет компьютеру проговаривать текст вслух.

К синтезу речи существуют разные подходы. Один из них предполагает запись диктором отдельных фрагментов (сэмплов), из которых впоследствии «склеивается» речь. Такой подход трудоёмок, а кроме того, синтезированная таким способом речь звучит неестественно: обрывисто и с паузами в самых неожиданных местах.

В Yandex SpeechKit для синтеза речи используется система на базе скрытых марковских моделей. Акустическая модель принимает на вход последовательность фонем и выдаёт на выходе соответствующий им звук. Это позволяет добиться более плавных интонаций, гибко управлять скоростью речи и даже придавать ей те или иные эмоции.

Все новые технологии с сегодняшнего дня входят в библиотеку SpeechKit Mobile SDK и облачный сервис SpeechKit Cloud и доступны сторонним разработчикам. Они могут встраивать их в свои продукты: мобильные приложения, игры, компьютерные программы, корпоративные сервисы.

Чтобы показать новые возможности SpeechKit, компания выпустила демонстрационное приложение «Яндекс.Диктовка». Оно предназначено для набора текста голосом. Чтобы начать набор, достаточно произнести фразу «Яндекс, записывай». Приложение начнёт слушать пользователя и преобразовывать его речь в текст в режиме реального времени.

ya_dic

Редактировать текст тоже можно голосом. Достаточно сказать, например, «Удали последнее слово», «Начни с новой строки», «Выдели весь текст», «Добавь весёлый смайлик» — и «Яндекс.Диктовка» выполнит пожелание. По команде «Прочитай всё» приложение озвучит текст, который был надиктован. Готовый текст можно сохранить как заметку, отправить в виде письма или SMS. Это тоже можно сделать голосом.

Если приложение неверно распознало то или иное слово, нужно нажать на кнопку «Корректор» и произнести его ещё раз. Так можно сделать речевые технологии «Яндекса» ещё лучше.

Диктовка уже доступна в магазине приложений «Яндекса», а позже появится и в магазинах Google Play и App Store.