Как стать автором
Обновить

PrimeNG + NestJS + Yandex = речевая аналитика

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров631

Разработали речевую аналитику для контакт-центра. Распознавание речи через сервис Yandex Speechkit, а анализ полученного текста уже в контуре, на нашем решении. По ходу разработки встречались интересные моменты, которые постараюсь описать.

Читать далее
Всего голосов 3: ↑3 и ↓0+3
Комментарии0

Простой GPT-ассистент в Telegram на базе Яндекса и Node.js

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров7.4K

Всем привет! Это моя первая публикация на хабре, поэтому буду благодарен за любую обратную связь, которая поможет мне писать ещё лучше.

В статье вас ждёт "сборка" очень простой связки из распознавания и синтеза речи, а также запросов в модель YandexGPT на Node.js. Наш телеграм бот будет получать голосовое сообщение, а затем распознавать его, скармливать в модель GPT и синтезировать полученный ответ в голосовое сообщение.

Хочется начать с небольшого предисловия. В ходе написания этого простейшего решения я потратил кучу времени на попытку интегрироваться с популярным OpenAI ChatGPT, но мои нервы вышли из чата (обход блокировки, HTTPS прокси и т.п.), поэтому я перешёл к Яндексу. Он встречает нас дружелюбной консолью, понятной документацией и грантом на тестирование. В целом, если гранта по каким-либо причинам нет, то мне на все тесты хватило 20 рублей.

Читать далее
Всего голосов 7: ↑6 и ↓1+5
Комментарии7

Биометрия, персонализация голоса, NLU и речевая аналитика: о чем расскажут на конференции Conversations

Время на прочтение2 мин
Количество просмотров1.4K

21 и 22 июня в Питере (и онлайн) пройдет конференция по разговорному ИИ Conversations. Поток для разработчиков будет посвящен conversational lego — технологиям вокруг разговорного AI, из которых состоят чат-боты, голосовые ассистенты и диалоговые решения. Персонализация голоса от Yandex Speechkit, стратегия управления диалогом от DeepPavlov, платформа речевой аналитики Тинькофф Банка, голосовая биометрия от SberDevices, анализ и разметка интентов при создании голосовых ботов от X5 Retail Group и другие тулзы — рассказываем, с чем еще можно познакомиться на Conversations V.

Читать далее
Всего голосов 9: ↑7 и ↓2+5
Комментарии0

Яндекс обновил Мессенджер и выпустил его как отдельное приложение с чатами и видеозвонками

Время на прочтение1 мин
Количество просмотров12K
image

Яндекс обновил сервис Чаты и выделил его в отдельное приложение Мессенджер. Он поддерживает текстовые сообщения, видеозвонки и голосовые сообщения с автоматическим переводом в текст.
Читать дальше →
Всего голосов 20: ↑19 и ↓1+18
Комментарии9

Интерактивное голосовое редактирование текста с помощью новых речевых технологий от Яндекса

Время на прочтение11 мин
Количество просмотров96K
Сегодня наше приложение Диктовка для интерактивного написания и редактирования текста голосом появилось в AppStore и Google Play. Его главная задача — продемонстрировать часть новых возможностей комплекса речевых технологий Яндекса. Именно о том, чем интересны и уникальны наши технологии распознавания и синтеза речи, я хочу рассказать в этом посте.



Пара слов, чтобы вы понимали, о чём пойдёт речь. Яндекс уже давно предоставляет бесплатное мобильное API, которое можно использовать, например, для распознавания адресов и голосовых запросов к поиску. За этот год мы смогли довести его качество почти до того же уровня, на котором такие запросы и реплики понимают сами люди. И теперь мы делаем следующий шаг — модель для распознавания свободной речи на любую тему.

Кроме этого, наш синтез речи поддерживает эмоции в голосе. И, насколько нам известно, это пока первый коммерчески доступный синтез речи с такой возможностью.

Обо всём этом, а также о некоторых других возможностях SpeechKit: об активации голосом, автоматической расстановке пунктуационных знаков и распознавании смысловых объектов в тексте — читайте ниже.
Читать дальше →
Всего голосов 116: ↑113 и ↓3+110
Комментарии104

Скрипт на ruby, который с помощью яндекс-сервиса Yandex SpeechKit распознает текст в видео-файле (длинные аудио)

Время на прочтение6 мин
Количество просмотров3.7K

Начну с того, что я совсем недавно начала погружаться в IT в целом и Ruby в частности, и это задание мне выдали в качестве тестового для получения места на стажировке. Заранее скажу, что тут еще есть что приглаживать и улучшать, но в целом код работает.

Однако, возможно, мой опыт может быть для кого то полезен, так что представляю вашему вниманию подробное описание создания этого скрипта. ВАЖНО: Моя операционная система Fedora 32, так же я использую заранее установленный в систему bundler. Так что если вы тоже используете linux-подобные системы, читаем далее.

Суть задания: есть видеофайл в формате mp4 нужно написать скрипт на чистом ruby, который будет конвертировать этот файл в аудио, отправлять его в сервис яндекса Yandex SpeechKit и получив ответ, создавать текстовый файл.

Читать далее
Всего голосов 4: ↑3 и ↓1+2
Комментарии2

Против всех: in-app голосовые помощники

Время на прочтение5 мин
Количество просмотров6.8K

Вы пользуетесь каждый день голосовыми помощниками? Я — нет. Хотя разрабатываю их уже более 7-ми лет!
Такими словами открывалась девелоперская сессия нашей конференции по разговорным технологиям в Москве.

А что, собственно, не так со всеми этими «Алисами», «Марусями» и «Google Ассистентами»? Почему пользователям с ними неудобно, а бизнесу — непонятно? И какая этому всему есть open source альтернатива?

Давайте разбираться
Всего голосов 10: ↑10 и ↓0+10
Комментарии19

Кейсы с YandexGPT, data-оркестр или бессерверный пайплайн: выбираем самое интересное с Yandex Scale’23

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров2K

25–26 сентября состоялся Yandex Scale — ежегодное мероприятие Yandex Cloud, посвящённое новым технологиям облачной платформы. Если хотите узнать, зачем пользователи платформы данных вращали барабан и как Алиса справляется с удалением контейнеров, — этот пост для вас.

Меня зовут Вера, я редактор блога Yandex Cloud & Yandex Infrastructure, и в этом репортаже собрала самое главное с офлайн-площадки конференции для тех, кто не смог присоединиться очно.

Читать далее
Всего голосов 10: ↑10 и ↓0+10
Комментарии6

Использование речевых технологий Яндекса на примере аудиосообщений Telegram или чат-бот для распознавания аудиосообщений

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров2.9K

В данной статье мы рассмотрим применение речевых технологий, предоставленных компанией Яндекс в контексте распознавания аудиосообщений в Telegram – популярном мессенджере, объединяющем миллионы пользователей по всему миру.

Давайте создадим чат-бот для Телеграм, который будет присылать нам текстовую расшифровку аудиосообщения!

Читать далее
Всего голосов 7: ↑6 и ↓1+5
Комментарии4

Разработка библиотеки: от API до публичного релиза

Время на прочтение24 мин
Количество просмотров13K
Давайте посмотрим на библиотеки не с той стороны, которая нам привычнее всего, то есть пользовательской, а с точки зрения разработчика библиотеки мобильной разработки. Поговорим, каких подходов стоит придерживаться, разрабатывая свою библиотеку. Начнем, конечно, с проектирования такого API, которым вы сами хотели бы пользоваться, который был бы удобен. Подумаем, что нужно учесть, чтобы сделать не просто работающий код, а по-настоящему хорошую библиотеку, и дойдем до того, как выпускать настоящий взрослый публичный релиз. Поможет нам в этом Ася Свириденко, которая поделится своим немалым опытом разработки мобильной библиотеки SpeechKit в Яндексе.

Материал будет полезен не только тем, кто занимается разработкой библиотеки или фреймворка, но еще и тем, кто хочет выделить часть из своего приложения в отдельный модуль, а потом его переиспользовать, или, например, поделиться своим кодом с остальным сообществом разработчиков, выложив его в публичный доступ.

Для всех остальных рассказ будет наполнен неподдельными историями из жизни команды мобильного SpeechKit, так что должно быть весело.

Всего голосов 28: ↑27 и ↓1+26
Комментарии3

Распознание длинных аудио сервисом Yandex SpeechKit из командной строки bash/shell через API

Время на прочтение5 мин
Количество просмотров7.4K

Довольно давно Яндекс предоставляет платные сервисы по синтезу и распознанию речи. К сожалению, интерфейса для регулярного использования сервисов нет, поэтому на досуге написал скрипт, который позволяет через консоль отправлять запросы и получать результаты.

Читать далее
Всего голосов 4: ↑4 и ↓0+4
Комментарии15

История одного факапа Яндекс.Навигатора. В шести действиях с прологом и раскаянием

Время на прочтение4 мин
Количество просмотров129K
Факапы случаются и у больших компаний, с тестировщиками и строгими релизными процедурами. В понедельник такой факап случился у нас — мы выкатили версию Яндекс.Навигатора под Андроид с неприятной ошибкой: приложение постоянно держало включённым микрофон и записывало весь звук в локальный файл. В результате быстро забивалось место на устройстве, да и просто это выглядело подозрительно, хотя содержимое файла по сети никуда и никогда не передавалось.



Сейчас ошибка уже исправлена, в сторе версия, которая её не содержит. Мы обнаружили проблему довольно быстро благодаря нашим пользователям и уже через несколько часов после релиза остановили раздачу обновления и оперативно опубликовали исправление.

Мы решили не стесняться, а поделиться с вами опытом, который из этой ситуации извлекли. Возможно, это поможет вам быть лучше. Как обычно, причиной стало сочетание технологических факторов и дискоммуникации между людьми. Подробности — под катом.
Шесть драматических действий с прологом и раскаянием
Всего голосов 210: ↑183 и ↓27+156
Комментарии294

Как мы делали Разговор: от прототипа на хакатоне до приложения Яндекса

Время на прочтение9 мин
Количество просмотров19K
Недавно Яндекс выпустил экспериментальное приложение Разговор, которое помогает общаться глухим и слабослышащим людям. Сейчас проходит международная неделя глухих, и мы решили, что это очень хороший повод рассказать о нашем приложении, о том, зачем мы его делали и как получилось так, что Яндекс поддержал нашу идею. А также о том, как отличается процесс работы над прототипом для хакатона от выпуска полноценного продукта.

image

Прошлой осенью в МФТИ, где я учился, на базовой кафедре Яндекса нам читали курс «Создание новых интернет-продуктов». Он задумывался как некий стартаперский практикум, в рамках которого нужно было придумать что-то, что успешно бы решало существующую проблему с помощью технологий Яндекса. Мы с несколькими моими однокурсниками подумали, что коммуникация людей, выключенных из привычного общения голосом с остальным слышащим миром, – задача, которая подходит под такие критерии. Согласно Всемирной организации здравоохранения, 10% жителей Земли имеют проблемы со слухом, 1,5-2% из них страдают тяжелыми нарушениями. В России их — 2,2 млн. Было бы здорово сделать что-то, что могло бы помочь этим людям в повседневной жизни.
Читать дальше →
Всего голосов 55: ↑52 и ↓3+49
Комментарии19

Синхронный вывод на экран распознаваемого текста на Flutter

Время на прочтение8 мин
Количество просмотров2.6K

В статье хочу поделиться опытом создания легкого приложения, которое синхронно проговариваемой фразе выделяет текст внутри подсказки.

От клиента поступил заказ на разработку тренажера говорения на иностранных языках. Пользователю показывается фраза, он ее произносит, и по мере произношения (в случае правильного произношения) текстовый блок меняется по принципу караоке подсказки.

За основу приложения был взят готовый  example с pub.dev https://pub.dev/packages/speech_to_text/example

Чтение займет не более 5-ти минут
Всего голосов 2: ↑0 и ↓2-2
Комментарии0

Числа Муаммара. Как я измерял искусственный интеллект на стажировке в Яндексе

Время на прочтение10 мин
Количество просмотров35K
Лето 2015 года. Сессия успешно сдана. Нормальный человек, наверное, скажет: «Ура! Свобода! Целый день буду играть в футбол и слетаю на море в Турцию». Но только не настоящий исследователь с пытливым умом. Я решил, что в любом случае буду работать над каким-нибудь собственным проектом… Но время непродуктивно со свистом неслось вперед. И тут мне в голову пришла светлая мысль: а почему бы не пойти на стажировку в Яндекс? Наверняка у них есть куча интересных исследовательских задач, к тому же это бесценный опыт работы в огромной компании с множеством профессионалов в своих областях, у которых есть чему поучиться. Тем, как попасть на стажировку в Яндекс, чем там можно заниматься и что вас ждет потом, я и хочу сегодня поделиться.

Для начала пару слов о себе. Зовут меня Муаммар, 21 год от роду, на данный момент являюсь студентом пятого курса мехмата МГУ. А еще я выпускник ШАДа, ведущий семинаров по Natural Language Processing в ШАДе и младший разработчик в команде речевых технологий Яндекса. Какой-то супергениальностью не отличаюсь, но люблю и умею работать. Пожалуй, хватит себя расхваливать, поговорим о стажировке. Кому интересно — добро пожаловать под кат!
Читать дальше →
Всего голосов 59: ↑48 и ↓11+37
Комментарии30

Учимся использовать Yandex SpeechKit с помощью Python за 5 минут

Время на прочтение5 мин
Количество просмотров38K

Год назад для собственных нужд я написал обертку Yandex SpeechKit на Python, она получилась настолько простая и универсальная, что грех не поделиться : )

Читать далее
Всего голосов 8: ↑6 и ↓2+4
Комментарии6

Наши грабли при запуске Calltouch Predict: 365 дней распознавания речи и машинного обучения

Время на прочтение4 мин
Количество просмотров2.4K
Уже давно «звонящий» рынок перешел с модели «плачу за звонок» на модель «плачу за звонок, который ведет к продаже». В автомобильном бизнесе – это звонки в отдел продаж, в недвижимости – звонки, которые приводят новых клиентов, в медицине – первичная запись пациентов и так далее.

image
Читать дальше →
Всего голосов 7: ↑7 и ↓0+7
Комментарии0

Daisy: ежедневный помощник на основе ChatGPT в твоём кармане

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров3.3K

Рассказываем о нашем телеграм-боте, который воспринимает речь, сочиняет тексты, пишет код, делает лингвистические переводы, создаёт краткие обобщения, художественные изображения и решает задачи по различным дисциплинам. Предлагаем вам его протестировать — будем рады фидбэку.

Читать далее
Всего голосов 17: ↑9 и ↓8+1
Комментарии0

Как мы создаём новые языки в Yandex SpeechKit. Рассказываем на примере узбекского

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров5.7K

Всем привет! Меня зовут Антон Ермилов, я руковожу командой разработки эффективных моделей машинного обучения в Yandex Cloud. Самый популярный среди наших ML-сервисов — Yandex SpeechKit, сервис распознавания и синтеза речи. В SpeechKit мы уже создали модели распознавания речи для 10 европейских языков, турецкого и казахского, а также модели синтеза речи для пяти языков. Недавно мы добавили узбекский язык. 

В этой статье я расскажу на примере узбекского, как мы добавляем новый язык в сервис: как создаются технологии синтеза и распознавания речи, как мы обучаем модели, какие встречаются сложности.

Читать дальше
Всего голосов 31: ↑29 и ↓2+27
Комментарии13