Результаты поиска по запросу «[SpeechKit]» / Хабр

Публикации Хабы Компании Пользователи Комментарии

camunar 3 апр в 21:46

PrimeNG + NestJS + Yandex = речевая аналитика

Простой

8 мин

631

Angular*NestJS*

Обзор

Разработали речевую аналитику для контакт-центра. Распознавание речи через сервис Yandex Speechkit, а анализ полученного текста уже в контуре, на нашем решении. По ходу разработки встречались интересные моменты, которые постараюсь описать.

bymsx 4 фев в 13:22

Простой GPT-ассистент в Telegram на базе Яндекса и Node.js

Простой

4 мин

7.4K

Node.JS*API*

Из песочницы

Всем привет! Это моя первая публикация на хабре, поэтому буду благодарен за любую обратную связь, которая поможет мне писать ещё лучше.

В статье вас ждёт "сборка" очень простой связки из распознавания и синтеза речи, а также запросов в модель YandexGPT на Node.js. Наш телеграм бот будет получать голосовое сообщение, а затем распознавать его, скармливать в модель GPT и синтезировать полученный ответ в голосовое сообщение.

Хочется начать с небольшого предисловия. В ходе написания этого простейшего решения я потратил кучу времени на попытку интегрироваться с популярным OpenAI ChatGPT, но мои нервы вышли из чата (обход блокировки, HTTPS прокси и т.п.), поэтому я перешёл к Яндексу. Он встречает нас дружелюбной консолью, понятной документацией и грантом на тестирование. В целом, если гранта по каким-либо причинам нет, то мне на все тесты хватило 20 рублей.

just_ai 5 июн 2021 в 11:29

Биометрия, персонализация голоса, NLU и речевая аналитика: о чем расскажут на конференции Conversations

2 мин

1.4K

Блог компании Just AIКонференцииИскусственный интеллектГолосовые интерфейсы*

21 и 22 июня в Питере (и онлайн) пройдет конференция по разговорному ИИ Conversations. Поток для разработчиков будет посвящен conversational lego — технологиям вокруг разговорного AI, из которых состоят чат-боты, голосовые ассистенты и диалоговые решения. Персонализация голоса от Yandex Speechkit, стратегия управления диалогом от DeepPavlov, платформа речевой аналитики Тинькофф Банка, голосовая биометрия от SberDevices, анализ и разметка интентов при создании голосовых ботов от X5 Retail Group и другие тулзы — рассказываем, с чем еще можно познакомиться на Conversations V.

baragol 22 апр 2020 в 16:05

Яндекс обновил Мессенджер и выпустил его как отдельное приложение с чатами и видеозвонками

1 мин

12K

Мессенджеры*Яндекс API*Голосовые интерфейсы*

Яндекс обновил сервис Чаты и выделил его в отдельное приложение Мессенджер. Он поддерживает текстовые сообщения, видеозвонки и голосовые сообщения с автоматическим переводом в текст.

Читать дальше →

+18

filldens 24 ноя 2014 в 14:06

Интерактивное голосовое редактирование текста с помощью новых речевых технологий от Яндекса

11 мин

96K

Блог компании ЯндексAPI*Яндекс API*

Сегодня наше приложение Диктовка для интерактивного написания и редактирования текста голосом появилось в AppStore и Google Play. Его главная задача — продемонстрировать часть новых возможностей комплекса речевых технологий Яндекса. Именно о том, чем интересны и уникальны наши технологии распознавания и синтеза речи, я хочу рассказать в этом посте.

Пара слов, чтобы вы понимали, о чём пойдёт речь. Яндекс уже давно предоставляет бесплатное мобильное API, которое можно использовать, например, для распознавания адресов и голосовых запросов к поиску. За этот год мы смогли довести его качество почти до того же уровня, на котором такие запросы и реплики понимают сами люди. И теперь мы делаем следующий шаг — модель для распознавания свободной речи на любую тему.

Кроме этого, наш синтез речи поддерживает эмоции в голосе. И, насколько нам известно, это пока первый коммерчески доступный синтез речи с такой возможностью.

Обо всём этом, а также о некоторых других возможностях SpeechKit: об активации голосом, автоматической расстановке пунктуационных знаков и распознавании смысловых объектов в тексте — читайте ниже.

Читать дальше →

+110

104

Rony_Guide 11 янв 2021 в 11:22

Скрипт на ruby, который с помощью яндекс-сервиса Yandex SpeechKit распознает текст в видео-файле (длинные аудио)

6 мин

3.7K

Ruby*

Из песочницы

Начну с того, что я совсем недавно начала погружаться в IT в целом и Ruby в частности, и это задание мне выдали в качестве тестового для получения места на стажировке. Заранее скажу, что тут еще есть что приглаживать и улучшать, но в целом код работает.

Однако, возможно, мой опыт может быть для кого то полезен, так что представляю вашему вниманию подробное описание создания этого скрипта. ВАЖНО: Моя операционная система Fedora 32, так же я использую заранее установленный в систему bundler. Так что если вы тоже используете linux-подобные системы, читаем далее.

Суть задания: есть видеофайл в формате mp4 нужно написать скрипт на чистом ruby, который будет конвертировать этот файл в аудио, отправлять его в сервис яндекса Yandex SpeechKit и получив ответ, создавать текстовый файл.

aimydima 11 дек 2019 в 11:42

Против всех: in-app голосовые помощники

5 мин

6.8K

Блог компании Just AIРазработка мобильных приложений*Искусственный интеллектNatural Language Processing*Голосовые интерфейсы*

Вы пользуетесь каждый день голосовыми помощниками? Я — нет. Хотя разрабатываю их уже более 7-ми лет!

Такими словами открывалась девелоперская сессия нашей конференции по разговорным технологиям в Москве.

А что, собственно, не так со всеми этими «Алисами», «Марусями» и «Google Ассистентами»? Почему пользователям с ними неудобно, а бизнесу — непонятно? И какая этому всему есть open source альтернатива?

Давайте разбираться

+10

YandexCloudEditor 29 сен 2023 в 11:00

Кейсы с YandexGPT, data-оркестр или бессерверный пайплайн: выбираем самое интересное с Yandex Scale’23

Простой

7 мин

Блог компании Yandex Cloud & Yandex InfrastructureIT-инфраструктура*КонференцииОблачные сервисы*

Репортаж

25–26 сентября состоялся Yandex Scale — ежегодное мероприятие Yandex Cloud, посвящённое новым технологиям облачной платформы. Если хотите узнать, зачем пользователи платформы данных вращали барабан и как Алиса справляется с удалением контейнеров, — этот пост для вас.

Меня зовут Вера, я редактор блога Yandex Cloud & Yandex Infrastructure, и в этом репортаже собрала самое главное с офлайн-площадки конференции для тех, кто не смог присоединиться очно.

+10

Molot999 6 авг 2023 в 21:51

Использование речевых технологий Яндекса на примере аудиосообщений Telegram или чат-бот для распознавания аудиосообщений

Простой

7 мин

2.9K

Python*

Туториал

В данной статье мы рассмотрим применение речевых технологий, предоставленных компанией Яндекс в контексте распознавания аудиосообщений в Telegram – популярном мессенджере, объединяющем миллионы пользователей по всему миру.

Давайте создадим чат-бот для Телеграм, который будет присылать нам текстовую расшифровку аудиосообщения!

YourDestiny 25 дек 2018 в 12:56

Разработка библиотеки: от API до публичного релиза

24 мин

13K

Блог компании Конференции Олега Бунина (Онтико)Разработка под iOS*Разработка мобильных приложений*Разработка под Android*API*

Давайте посмотрим на библиотеки не с той стороны, которая нам привычнее всего, то есть пользовательской, а с точки зрения разработчика библиотеки мобильной разработки. Поговорим, каких подходов стоит придерживаться, разрабатывая свою библиотеку. Начнем, конечно, с проектирования такого API, которым вы сами хотели бы пользоваться, который был бы удобен. Подумаем, что нужно учесть, чтобы сделать не просто работающий код, а по-настоящему хорошую библиотеку, и дойдем до того, как выпускать настоящий взрослый публичный релиз. Поможет нам в этом Ася Свириденко, которая поделится своим немалым опытом разработки мобильной библиотеки SpeechKit в Яндексе.

Материал будет полезен не только тем, кто занимается разработкой библиотеки или фреймворка, но еще и тем, кто хочет выделить часть из своего приложения в отдельный модуль, а потом его переиспользовать, или, например, поделиться своим кодом с остальным сообществом разработчиков, выложив его в публичный доступ.

Для всех остальных рассказ будет наполнен неподдельными историями из жизни команды мобильного SpeechKit, так что должно быть весело.

+26

Story-teller 13 окт 2021 в 14:05

Распознание длинных аудио сервисом Yandex SpeechKit из командной строки bash/shell через API

5 мин

7.4K

Программирование*Яндекс API*Разработка под Linux*

Довольно давно Яндекс предоставляет платные сервисы по синтезу и распознанию речи. К сожалению, интерфейса для регулярного использования сервисов нет, поэтому на досуге написал скрипт, который позволяет через консоль отправлять запросы и получать результаты.

alex-leo 9 сен 2015 в 06:36

История одного факапа Яндекс.Навигатора. В шести действиях с прологом и раскаянием

4 мин

129K

Блог компании ЯндексРазработка мобильных приложений*Разработка под Android*Геоинформационные сервисы*Тестирование мобильных приложений*

Факапы случаются и у больших компаний, с тестировщиками и строгими релизными процедурами. В понедельник такой факап случился у нас — мы выкатили версию Яндекс.Навигатора под Андроид с неприятной ошибкой: приложение постоянно держало включённым микрофон и записывало весь звук в локальный файл. В результате быстро забивалось место на устройстве, да и просто это выглядело подозрительно, хотя содержимое файла по сети никуда и никогда не передавалось.

Сейчас ошибка уже исправлена, в сторе версия, которая её не содержит. Мы обнаружили проблему довольно быстро благодаря нашим пользователям и уже через несколько часов после релиза остановили раздачу обновления и оперативно опубликовали исправление.

Мы решили не стесняться, а поделиться с вами опытом, который из этой ситуации извлекли. Возможно, это поможет вам быть лучше. Как обычно, причиной стало сочетание технологических факторов и дискоммуникации между людьми. Подробности — под катом.

Шесть драматических действий с прологом и раскаянием

+156

294

AkmalArtikov 24 сен 2015 в 20:15

Как мы делали Разговор: от прототипа на хакатоне до приложения Яндекса

9 мин

19K

Блог компании ЯндексРазработка мобильных приложений*API*Яндекс API*

Недавно Яндекс выпустил экспериментальное приложение Разговор, которое помогает общаться глухим и слабослышащим людям. Сейчас проходит международная неделя глухих, и мы решили, что это очень хороший повод рассказать о нашем приложении, о том, зачем мы его делали и как получилось так, что Яндекс поддержал нашу идею. А также о том, как отличается процесс работы над прототипом для хакатона от выпуска полноценного продукта.

Прошлой осенью в МФТИ, где я учился, на базовой кафедре Яндекса нам читали курс «Создание новых интернет-продуктов». Он задумывался как некий стартаперский практикум, в рамках которого нужно было придумать что-то, что успешно бы решало существующую проблему с помощью технологий Яндекса. Мы с несколькими моими однокурсниками подумали, что коммуникация людей, выключенных из привычного общения голосом с остальным слышащим миром, – задача, которая подходит под такие критерии. Согласно Всемирной организации здравоохранения, 10% жителей Земли имеют проблемы со слухом, 1,5-2% из них страдают тяжелыми нарушениями. В России их — 2,2 млн. Было бы здорово сделать что-то, что могло бы помочь этим людям в повседневной жизни.

Читать дальше →

+49

Feofan_Greek 6 мая 2022 в 14:20

Синхронный вывод на экран распознаваемого текста на Flutter

8 мин

2.6K

Разработка под iOS*Dart*Flutter*

Из песочницы

В статье хочу поделиться опытом создания легкого приложения, которое синхронно проговариваемой фразе выделяет текст внутри подсказки.

От клиента поступил заказ на разработку тренажера говорения на иностранных языках. Пользователю показывается фраза, он ее произносит, и по мере произношения (в случае правильного произношения) текстовый блок меняется по принципу караоке подсказки.

За основу приложения был взят готовый example с pub.dev https://pub.dev/packages/speech_to_text/example

Чтение займет не более 5-ти минут

-2

Laytlas 29 апр 2016 в 13:50

Числа Муаммара. Как я измерял искусственный интеллект на стажировке в Яндексе

10 мин

35K

Блог компании ЯндексАлгоритмы*Математика*Машинное обучение*

Лето 2015 года. Сессия успешно сдана. Нормальный человек, наверное, скажет: «Ура! Свобода! Целый день буду играть в футбол и слетаю на море в Турцию». Но только не настоящий исследователь с пытливым умом. Я решил, что в любом случае буду работать над каким-нибудь собственным проектом… Но время непродуктивно со свистом неслось вперед. И тут мне в голову пришла светлая мысль: а почему бы не пойти на стажировку в Яндекс? Наверняка у них есть куча интересных исследовательских задач, к тому же это бесценный опыт работы в огромной компании с множеством профессионалов в своих областях, у которых есть чему поучиться. Тем, как попасть на стажировку в Яндекс, чем там можно заниматься и что вас ждет потом, я и хочу сегодня поделиться.

Для начала пару слов о себе. Зовут меня Муаммар, 21 год от роду, на данный момент являюсь студентом пятого курса мехмата МГУ. А еще я выпускник ШАДа, ведущий семинаров по Natural Language Processing в ШАДе и младший разработчик в команде речевых технологий Яндекса. Какой-то супергениальностью не отличаюсь, но люблю и умею работать. Пожалуй, хватит себя расхваливать, поговорим о стажировке. Кому интересно — добро пожаловать под кат!

Читать дальше →

+37

Tikhonnn 9 авг 2022 в 11:20

Учимся использовать Yandex SpeechKit с помощью Python за 5 минут

5 мин

38K

Python*Яндекс API*Облачные сервисы*Искусственный интеллектЗвук

Из песочницы

Год назад для собственных нужд я написал обертку Yandex SpeechKit на Python, она получилась настолько простая и универсальная, что грех не поделиться : )

CalltouchForever 4 сен 2017 в 12:04

Наши грабли при запуске Calltouch Predict: 365 дней распознавания речи и машинного обучения

4 мин

2.4K

Блог компании CalltouchВеб-аналитика*Интернет-маркетинг*

Уже давно «звонящий» рынок перешел с модели «плачу за звонок» на модель «плачу за звонок, который ведет к продаже». В автомобильном бизнесе – это звонки в отдел продаж, в недвижимости – звонки, которые приводят новых клиентов, в медицине – первичная запись пациентов и так далее.

Читать дальше →

redmadrobot 31 мая 2023 в 13:07

Daisy: ежедневный помощник на основе ChatGPT в твоём кармане

Простой

3 мин

3.3K

Блог компании red_mad_robotИскусственный интеллект

Кейс

Рассказываем о нашем телеграм-боте, который воспринимает речь, сочиняет тексты, пишет код, делает лингвистические переводы, создаёт краткие обобщения, художественные изображения и решает задачи по различным дисциплинам. Предлагаем вам его протестировать — будем рады фидбэку.

eran 15 июн 2023 в 12:23

Как мы создаём новые языки в Yandex SpeechKit. Рассказываем на примере узбекского

Простой

8 мин

5.7K

Блог компании Yandex Cloud & Yandex InfrastructureМашинное обучение*Облачные сервисы*Искусственный интеллектГолосовые интерфейсы*

Всем привет! Меня зовут Антон Ермилов, я руковожу командой разработки эффективных моделей машинного обучения в Yandex Cloud. Самый популярный среди наших ML-сервисов — Yandex SpeechKit, сервис распознавания и синтеза речи. В SpeechKit мы уже создали модели распознавания речи для 10 европейских языков, турецкого и казахского, а также модели синтеза речи для пяти языков. Недавно мы добавили узбекский язык.

В этой статье я расскажу на примере узбекского, как мы добавляем новый язык в сервис: как создаются технологии синтеза и распознавания речи, как мы обучаем модели, какие встречаются сложности.

+27