Pull to refresh

Яндекс добавил в Почту диктовку и распознавание речи на основе SpeechKit

Development for iOS *Software


В почтовом клиенте Яндекса появилась функция распознавания речи и перевода её в текст, а также озвучивания входящих сообщений. К исходящему письму на всякий случай можно прикрепить запись собственного голоса.
Читать дальше →
Total votes 12: ↑12 and ↓0 +12
Views 2.1K
Comments 3

Yandex Scale 2021 — третья большая конференция про облачные технологии от Yandex.Cloud

Cloud computing *Conferences Cloud services Serverless *

24 сентября облачная платформа Yandex.Cloud проведёт третью большую конференцию про облачные технологии — Yandex Scale. В этом году в онлайн-формате и абсолютно бесплатно для всех желающих, достаточно только зарегистрироваться. Сегодня я расскажу про основные треки и анонсы нашей конференции. Stay tuned и поехали.


Читать дальше →
Total votes 10: ↑9 and ↓1 +8
Views 1.5K
Comments 0

В Yandex Cloud появилась функция с помощью ИИ расставлять знаки препинания при распознавании речи

Artificial Intelligence IT-companies

Yandex Cloud обновила свой сервис для синтеза и распознавания речи на базе машинного обучения Yandex SpeechKit. Теперь он может при переводе голоса в текст расставлять знаки препинания. Это поможет в тех областях, где с речевыми технологиями человек должен взаимодействовать напрямую. К примеру, в общении с голосовым помощником, автоматическом транскрибировании или формировании субтитров. 

Читать далее
Total votes 7: ↑7 and ↓0 +7
Views 528
Comments 2

Распознавание речи от Яндекса. Под капотом у Yandex.SpeechKit

Яндекс corporate blog Data Mining *Algorithms *
imageНа Yet another Conference 2013 мы представили разработчикам нашу новую библиотеку Yandex SpeechKit. Это публичный API для распознавания речи, который могут использовать разработчики под Android и iOS. Скачать SpeechKit, а также ознакомиться с документацией, можно здесь.

Yandex SpeechKit позволяет напрямую обращаться к тому бэкэнду, который успешно применяется в мобильных приложениях Яндекса. Мы достаточно долго развивали эту систему и сейчас правильно распознаем 94% слов в Навигаторе и Мобильных Картах, а также 84% слов в Мобильном Браузере. При этом на распознавание уходит чуть больше секунды. Это уже весьма достойное качество, и мы активно работаем над его улучшением.

image

Можно утверждать, что уже в скором времени голосовые интерфейсы практически не будут отличаться по надежности от классических способов ввода. Подробный рассказ о том, как нам удалось добиться таких результатов, и как устроена наша система, под катом.

Как устроено распознавание речи в Яндексе
Total votes 155: ↑149 and ↓6 +143
Views 141K
Comments 60

Поиск оптимальной системы аудио распознавания речи с закрытым исходным кодом, но имеющими открытые API, для возможности интеграции

API *Mathematics *

Вместо введения


Решил немного дополнить отчет, который составлял еще будучи студентом. Прошло время и, как говорится, прогресс не стоит на месте. Технологии распознавания речи динамически развиваются. Что-то появляется, что-то исчезает. Вашему вниманию представляю самые известные речевые движки, которые может использовать разработчик в своем продукте на основе лицензионного соглашения. Буду рад замечаниям и дополнениям.

Содержание:


1. Поиск и анализ цветового пространства оптимального для построения выделяющихся объектов на заданном классе изображений
2. Определение доминирующих признаков классификации и разработка математической модели изображений мимики"
3. Синтез оптимального алгоритма распознавания мимики
4. Реализация и апробация алгоритма распознавания мимики
5. Создание тестовой базы данных изображений губ пользователей в различных состояниях для увеличения точности работы системы
6. Поиск оптимальной аудио-системы распознавания речи на базе открытого исходного кода
7. Поиск оптимальной системы аудио распознавания речи с закрытым исходным кодом, но имеющими открытые API, для возможности интеграции
8. Эксперимент интеграции видео расширения в систему аудио-распознавания речи с протоколом испытаний

Цели:


Определить наиболее оптимальную аудио-систему распознавания речи (речевой движок) на базе закрытого исходного кода, то есть лицензии которой не подходит под определение открытого ПО.

Задачи:


Определить аудио-системы распознавания речи, которые попадают под понятие закрытого исходного кода. Рассмотреть наиболее известные варианта речевых систем преобразования голоса в текст, для перспектив интеграции видео-модуля в наиболее оптимальную голосовую библиотеку, которая имеет открытое API для совершения данной операции. Сделать выводы целесообразности использования аудио-систем распознавания речи на базе закрытого исходного кода под наши цели и задачи.
image
Читать дальше →
Total votes 29: ↑21 and ↓8 +13
Views 84K
Comments 10

Yandex слышит тебя, dude

Papa Buba Diop corporate blog Development for iOS *Yandex API *
image
Неожиданно пришел приказ — написать приложение под iOS, использующее Yandex Speechkit для распознавания русской речи. Точнее, для распознавания коротких фраз на произвольную тему. Цель задания — сравнить успехи яндекс-двигателя с нашим, саровским движком.

Приказали — сделал следующие шаги.

  1. Зашел на yandex.ru в раздел распознавание речи
  2. Зарегистрировался и получил ключ, он же API_KEY
  3. Отправил письмо в yandex с просьбой активировать ключ


На вопрос, как будет использоваться ключ, я ответил, что выпускаю карточную игру Diablo 3-13, управляемую голосом.

Через два дня ключ активировали. Я поначалу нетерпеливо бил копытом, затем понял, что в yandex работают вдумчивые, синхронные сотрудники.
В своем приложении в дальнейшем я также отказался от асинхронных запросов к yandex.api.
Читать дальше →
Total votes 94: ↑84 and ↓10 +74
Views 43K
Comments 27

Распознавание речи во FreePBX с помощью Яндекс Speechkit

Asterisk *Development of communication systems *
Привет, хабр!

Решил поделиться опытом интеграции Asterisk и сервиса Яндекса по распознаванию речи.

Загорелось моему заказчику внедрить в свою АТС фичу Voice2Text.

В качестве АТС использовался FreePBX.

Сразу в голову пришло использование сервисов распознавания речи от Google, но после нескольких часов безуспешных попыток добиться нужного результата решил попробовоть аналогичный сервис Яндекса.

Подробности под катом.
Читать дальше →
Total votes 16: ↑16 and ↓0 +16
Views 18K
Comments 13

go-скрипт который делает аудиокнигу из текстового файла используя один из лучших синтезаторов речи — Ivona от Amazon

Amazon Web Services *API *Go *
Указываем в скрипте путь на книгу в txt — на выходе получаем папку с озвучкой хорошим синтезом.
Читать дальше →
Total votes 42: ↑34 and ↓8 +26
Views 39K
Comments 36

Числа Муаммара. Как я измерял искусственный интеллект на стажировке в Яндексе

Яндекс corporate blog Algorithms *Mathematics *Machine learning *
Лето 2015 года. Сессия успешно сдана. Нормальный человек, наверное, скажет: «Ура! Свобода! Целый день буду играть в футбол и слетаю на море в Турцию». Но только не настоящий исследователь с пытливым умом. Я решил, что в любом случае буду работать над каким-нибудь собственным проектом… Но время непродуктивно со свистом неслось вперед. И тут мне в голову пришла светлая мысль: а почему бы не пойти на стажировку в Яндекс? Наверняка у них есть куча интересных исследовательских задач, к тому же это бесценный опыт работы в огромной компании с множеством профессионалов в своих областях, у которых есть чему поучиться. Тем, как попасть на стажировку в Яндекс, чем там можно заниматься и что вас ждет потом, я и хочу сегодня поделиться.

Для начала пару слов о себе. Зовут меня Муаммар, 21 год от роду, на данный момент являюсь студентом пятого курса мехмата МГУ. А еще я выпускник ШАДа, ведущий семинаров по Natural Language Processing в ШАДе и младший разработчик в команде речевых технологий Яндекса. Какой-то супергениальностью не отличаюсь, но люблю и умею работать. Пожалуй, хватит себя расхваливать, поговорим о стажировке. Кому интересно — добро пожаловать под кат!
Читать дальше →
Total votes 59: ↑48 and ↓11 +37
Views 35K
Comments 30

Обработка голосовых запросов в Telegram с помощью Yandex SpeechKit Cloud

Python *Yandex API *Open data *
Sandbox

Как все начиналось


Этим летом я участвовал в разработке бота Datatron, предоставляющего доступ с открытыми финансовыми данными РФ. В какой-то момент я захотел, чтобы бот мог обрабатывать голосовые запросы, и для реализации этой задачи решил использовать наработками Яндекса.

Читать дальше →
Total votes 11: ↑11 and ↓0 +11
Views 26K
Comments 3

Проектная смена в образовательном центре «Сириус»

Robotics Popular science The future is here IT-companies
Подходит к концу первая проектная смена в образовательном центре «Сириус». Обычно здесь проводятся образовательные смены, на которых учащиеся школ готовятся к олимпиадам всероссийского и мирового уровня. Например, команда математиков перед всемирной олимпиадой проходила сборы в «Сириусе». Предполагается в будущем сделать это место одним из основных центров притяжения талантливой молодежи для дальнейшей интеграции в высокотехнологичные проекты, которые находятся на особом счету государства.

Команда Университета ИТМО, помимо обширного участия в проектах, связанных с нанотехнологиями, работала с учащимися школ над несколькими робототехническими проектами. Наша группа состояла из 19 учеников и 3 преподавателей. Заранее мы определили основные технологии и особенности конструкции, которые будут реализованы в ходе проекта. Некоторые проекты ориентированы на автоматизацию определенных процессов, а какие-то имеют больше творческую визуальную составляющую. В качестве основы для создания роботов было решено использовать робототехнический конструктор ТРИК. Здесь уже публиковались примеры использования этого конструктора.


Наши роботы здесь...
Total votes 16: ↑16 and ↓0 +16
Views 6.6K
Comments 1

OmegaT: переводим с помощью компьютера

Software Learning languages
Tutorial
image

Как переводить документ в Word и не париться с форматированиемКак не переводить одно и то же? Как сохранять единообразие? Как не покупать дорогие программы? Как работать эффективно и быстро?

Если вы знакомы с Trados, MemoQ или CrowdIn, переходите сразу к инструкции по установке. Если же это новые для вас слова — добро пожаловать в прекрасный мир Computer Aided Translation. 
Читать дальше →
Total votes 31: ↑29 and ↓2 +27
Views 26K
Comments 29

Наш опыт работы с DeepPavlov: голосовой помощник за 20 дней и приём 5000 звонков на горячей линии

Команда Цифровой Трансформации Татарстана corporate blog Big Data *Machine learning *Artificial Intelligence Natural Language Processing *
Когда объявили режим самоизоляции, на горячую линию по коронавирусу в Татарстане поступало множество вопросов от жителей. Чтобы разгрузить операторов коллцентра, мы в Центре Цифровой Трансформации республики вместе с уполномоченным по ИИ в Татарстане разработали голосового помощника, который отвечал на несложные вопросы.



Для приема звонков мы использовали платформу Voximplant, а для распознавания вопросов и ответов — DeepPavlov. Голосового помощника получилось запустить за две с половиной недели, и он помог обработать 5000 звонков. У нас получилось выкатить продукт, который помогал жителям Татарстана получать достоверную информацию от властей, да и просто выходить на улицу. Ниже расскажем, как мы это делали.
Читать дальше →
Total votes 12: ↑9 and ↓3 +6
Views 5.6K
Comments 9

Разрабатываем своего первого голосового ассистента на iOS

VS Robotics corporate blog Development for iOS *Voice user interfaces
Tutorial

За последнее время значимость голосовых функций и звука значительно выросла. Примером тому может служить уже громкая история запуска приложения Clubhouse, голосовых ассистентов Сбера и общего оживления интереса со стороны пользователей, компаний и инвесторов к звуку на мобильных устройствах.

На мой взгляд, звук как интерфейс между пользователем и приложениями, изначально был недооценен, однако с появлением технологий искусственного интеллекта, высокой информационной нагрузки и нехватки времени, польза аудио становится очевиднее.

В этой статье я бы хотел рассмотреть пример разработки голосового помощника на платформе iOS, используя язык Swift.

Читать далее
Total votes 5: ↑5 and ↓0 +5
Views 2.4K
Comments 2

Распознание длинных аудио сервисом Yandex SpeechKit из командной строки bash/shell через API

Programming *Yandex API *Development for Linux *

Довольно давно Яндекс предоставляет платные сервисы по синтезу и распознанию речи. К сожалению, интерфейса для регулярного использования сервисов нет, поэтому на досуге написал скрипт, который позволяет через консоль отправлять запросы и получать результаты.

Читать далее
Total votes 4: ↑4 and ↓0 +4
Views 3.5K
Comments 9

Настольный клиент для Yandex Speechkit text2speech на коленке

API *Voice user interfaces
Tutorial

Вчера понадобилось мне записать голос для голосового (IVR) меню. Решил воспользоваться голосами от яндекс.облака, тем более что они теперь все высококачественные, и от человеческого неотличимы. Но как бы это сделать поудобнее, чтобы не надо было потом редактировать и конвертировать? Казалось бы, можно воспользоваться демкой на странице описания, но во первых там есть ограничение длины текста, во вторых она дает сохранить только запись в формате ogg, и в третьих иногда добавляет в запись рекламу. Оно и понятно в общем то, эта демка предназначена для показа технологии а не для коммерческого использования.

Резюме - надо получать записи как положено, через api, тем более что оно простое и понятное, только небольшая сложность с авторизацией. Но то что оно несложное не значит что им можно легко и просто с нуля воспользоваться, нужен хоть какой то интерфейс.

Беглый гуглёж ничего не принес, только несколько малопонятных проектов на гитхабе.

Уже думал быстренько наваять какой нибудь свой веб-интерфейс но тут вспомнил что есть Postman. Для тех кто не в теме - это замечательная программа для тестирования любых api интерфейсов.

Под катом - как настроить Postman для преобразования текста в речь.

Читать далее
Total votes 5: ↑4 and ↓1 +3
Views 1.6K
Comments 3