Обновить
19.8

Голосовые интерфейсы *

управляем устройствами при помощи голосовых команд

Сначала показывать
Порог рейтинга
Уровень сложности

Беспрецедентный сдвиг в голосовых интерфейсах ИИ

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров1.6K

Вы заметили, что уже кричите на голосовых помощников, когда они вас не понимают?

Эра разочаровывающих голосовых интерфейсов заканчивается.

Узнайте, как эта технология изменит всё: от бизнес-коммуникаций до наших социальных навыков.

Это нужно послушать — спор с голосовым ИИ Sesame в реальном времени 🤯

Читать далее

Как я запускаю 15+ самых разных ИИ на своей машине — open-source, self-hosted, с HTTP-доступом

Уровень сложностиСредний
Время на прочтение16 мин
Количество просмотров31K

Я написал BrainBox — local-first сервис поддержки open-source ИИ-систем для генерации изображений, распознавания объектов на снимках, озвучки, распознавания текстов, транскрибирования аудиозаписей и других целей. Эти системы запускаются за фасадом веб-сервера, который устанавливает их и затем принимает и выполняет задачи в едином для всех систем формате. Задачи можно ставить из любого языка программирования с помощью отправки веб-запросов на сервер, а для Python дополнительно разработан удобный API. Проект доступен на pypi https://pypi.org/project/kaia-brainbox/ с подробной документацией и инструкцией на английском языке. Я надеюсь, что BrainBox поможет тем, кто хочет сделать небольшой проект с использованием ИИ, но не хочет разбираться в питоне и торче, или просто не знает, с чего начать.

Читать далее

Будущее v-commerce: как использовать распознавание речи и голосовой поиск в 2025 году

Время на прочтение11 мин
Количество просмотров907

В этой статье мы рассмотрим успешные кейсы и неудачные примеры, сдерживающие развитие технологии, расскажем про тренды голосового шоппинга и особенности интеграции такого решения.

Вы узнаете:

- Что такое голосовая коммерция?
- Какую пользу она приносит бизнесу?
- Как голосовая коммерция меняет современный ритейл?
- Какие компании уже успешно внедрили голосовой поиск и распознавание речи в свои процессы, а какие решили отказаться от технологии?
- Как изменилась обработка голоса человека с развитием искусственного интеллекта?

Читать далее

Путешествия и диктофон

Время на прочтение3 мин
Количество просмотров2.3K

Я люблю путешествовать в бэкпэк формате и люблю фотографировать природу и жизнь, вот примерно так: Кавказ Осетия Ингушетия Чечня Дагестан 10_2023

И у меня есть 2 проблемы с этим.

Первая — отсутствие на рынке удобного камерофона для путешествий. Эту проблему я уже описывал в статье на Хабре.

Вторая — отсутствие удобного тулза для создания отчета по путешествию. Писать отчеты — это очень правильно, иначе по прошествии 10–15 лет коллекции фото превращаются просто в наборы красивых картинок так как фактические детали, эмоции стираются из памяти. Я сильно жалею, что частенько ленился писать отчеты.

Читать далее

Управление компьютером. Голосовое управление ПК. Arduino + voice recognition module v3.1 + EasyHID + DFPlayer

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров4.1K

Устройство для управления компьютером при помощи голосовых команд, и получение отклика, на выполненную инструкцию, голосом Полины из новеллы «Зайчик».

Читать далее

Сексуальная окраска голоса ИИ

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров1.4K

Игорь Ашманов еще десять лет назад сказал, что в результате маркетинговых исследований первых роботов-пылесосов пионеры домашней робототехники буду сфокусированы на эмоциональном взаимодействии между домашним роботом и хозяином.

В его примере робот-пылесос формировал эмоциональную привязанность у молодых бабушек. В 50 лет у женщины происходит перестройка организма, и появляется потребность заботиться о внуке – маленьком беспомощном существе. И эту потребность частично закрывает робот-пылесос.

На своих семинарах я часто задаю вопрос: «Через 30 лет молодой одинокий обеспеченный мужчина придет покупать домашнего робота в магазин, где будут представлены все возможные образы роботов – от кошки до бабушки. Какой внешний вид робота будет покупать одинокий мужчина больше других?» Чаще всего слушатели отвечают, что это будут образы красивых девушек.

При этом очевидно, что пул домашних роботов не может состоять только из красивых девушек, которые общаются таким образом, чтобы влюбить в себя хозяина. Для большинства молодых мужчин красивая женщина рядом – это главное, но далеко не единственное в его жизни. Среди домашних роботов будет много мужчин, бабушек, кошечек, собачек, виртуальных персонажей. Если робот – красивая девушка – будет говорить только в эротическом голосовом режиме, хозяину он быстро надоест, и эмоциональная привязанность не сформируется. Важно чередование положительных и отрицательных эмоций в голосе. Важны эмоции уважения, восхищения, признания ценности хозяина. Важны эмоциональное сближение и дистанцирование с хозяином, в частности, за счет чередования разных голосовых режимов.

Читать далее

Делаем быстрый, качественный и доступный синтез на языках России — нужно ваше участие

Уровень сложностиПростой
Время на прочтение1 мин
Количество просмотров2.9K

Привет, Хабр!

В этом году мы делаем проект Фонда Бортника по разработке модели синтеза речи языков России и СНГ. Возможно, нас на Хабре вы знаете по статьям про синтез речи, детектор голоса или через одного популярного бота для озвучки в Телеграме (на всякий не буду ссылку прикладывать).

Наша основная задача - сделать удобный, быстрый, устойчивый, качественный и нетребовательный к вычислительным ресурсам синтез на самых популярных у нас в стране и в ближайшем зарубежье языках.

По итогу проекта планируется публикация общедоступных моделей синтеза языка под свободной лицензией (MIT). Мы бы хотели покрыть как минимум 10 популярных языков. Всего популярных языков (более 100 тысяч носителей) 30+, так что, в принципе, тут есть, где разгуляться.

Поэтому ищем людей, у которых два родных языка (русский и второй родной), которые бы помогли нам с рядом вещей:

С чем?

Анатомия виртуального сотрудника: от смыслов до каналов

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров1.5K

Привет, Хабр! Меня зовут Илья Волынкин, я технический директор МТС Exolve. Когда мы говорим про коммуникации, то обычно представляем себе двух человек, общающихся либо в чате, либо голосом. В современном мире такая схема встречается все реже: появляются разные боты, новые каналы связи, которые еще и действуют параллельно. Так возникают сложные системы для голосовых коммуникаций — омниканальные роботы. В статье я расскажу об их основных архитектурных паттернах, применении ИИ-моделей и возникновении новых и непривычных решений.

Читать далее

Смарт-функции в Алисе: как LLM помогает понять, чего хочет пользователь

Время на прочтение41 мин
Количество просмотров8.3K

Так уж вышло, что раз в несколько лет мы переписываем сервис, отвечающий за диалоговое взаимодействие в Алисе. В прошлый раз мы распиливали монолит на микросервисы, переходили от концепции интента к концепции сценария и улучшали качество классификации. Этот рефакторинг позволил нам научиться горизонтально масштабироваться, ускорил выпуск фичей и дал возможность существенно улучшить качество работы диалогового движка. На этой инфраструктуре мы жили 5 лет.

Совсем недавно мы начали новый виток развития Алисы: мы хотим поместить в самое сердце (точнее, в самый мозг) нашего диалогового движка большую языковую модель. В этом году мы уже добавили в Алису возможность отвечать с помощью LLM на любые вопросы, а теперь взялись за то, чтобы Алиса стала более универсальной и могла выполнять любые задачи пользователя.

Например, пользователь может сказать: «Алиса, выключи телевизор, когда закончится этот матч». До появления смарт‑функций Алиса ответила бы, что «этого пока не умеет», так как подобной задаче её не обучали. Теперь нейросеть сама разложит запрос на два действия — посмотрит, сколько осталось до конца, и поставит таймер выключения на это время. Или если в запросе будут разного типа задачи, например одна про контент, а другая — про звук, Алиса тоже разложит их на понятные для нее части и выполнит: «Алиса, включи первый фильм на громкости 20».

Дальше я расскажу, как мы это собираемся делать.

Читать далее

Голосовой ассистент на python

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров10K

Всем привет, я программист-любитель, изучающий язык python уже многие годы.

Не буду долго тянуть с приветствием и сразу перейду к делу. Этот гайд является по сути пошаговой инструкцией для создания базового кода голосового ассистента, который можно будет потом расширять и дополнять.

Читать

«Я — робот Вертер» или Нулевой закон робототехники

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров11K


В этой статье речь пойдёт не об Азимове и его законах. Великий фантаст не мог предусмотреть всё. А о порочной практике, когда текстовые и голосовые роботы представляются человеческими именами. Или вообще не представляются. Разработчики и собственники таких роботов рассчитывают на то, что люди, собеседники роботов, будут введены в заблуждение, что говорят с человеком. Это даёт небольшой шанс владельцу робота что-то продать или предложить потребителям, сэкономив деньги на зарплате сотруднику колл-центра.

Разберём подробно, как правильно должны представляться роботы и почему это важно.

А также обсудим пути к созданию цивилизованной среды, в которой взаимодействие с роботами будет приносить больше пользы.
Почему же роботы ВСЕГДА должны говорить о том, что они роботы?

Как научить голосовой помощник Алиса рассказывать отзывы выпускников Яндекс Практикума

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров3.3K

Меня зовут Екатерина Александрова, я интернет‑маркетолог, выпускница курса «Интернет‑маркетолог» и «SMM‑продвижение в Телеграмм», и Станислав Козырев — ведущий инженер‑программист, дата‑аналитик и саентист ЦУНБ им. Некрасова, выпускник курса «Специалист по Data Science».

Наша команда «Проактивные практики», состоящая из пяти увлеченных и энергичных участников, проходит обучение в амбассадорской программе Яндекса. Заключительным этапом программы стала выпускная работа.

Читать далее

Сравнение систем распознавания русского языка 2024

Уровень сложностиСредний
Время на прочтение3 мин
Количество просмотров5.8K

После значительной паузы, опять пришло время обновить наше исследование (прошлое, позапрошлое) качества систем распознавания русского языка. Опять же, мы не думали, что добежим до этого момента и были удивлены результатами.

В этот раз ситуация такая:

Какая?

Ближайшие события

Эволюция чат-ботов в Бизнесе: от теории к практике

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров1.5K

Изначально чат-боты напоминали обычные автоответчики. Бизнес рассматривал их лишь для замены рутинных операций по перенаправлению пользователя с одного оператора на другого.

Первый прорыв случился с распространением в Телеграм «кнопочного интерфейса ботов», который «де-факто» стал стандартом в области текстовых ботов.

Вторым прорывом можно считать распространение систем преобразования голоса в текст (speech to text), благодаря которым появилась возможность взаимодействовать с системами с помощью голосовых команд.

Третий прорыв возник в области искусственного интеллекта (ИИ), боты стали «человечнее» и взаимодействие с ними перешло из разряда «робот» в разряд «помощник».

Читать далее

Особенности фонетики якутского языка для синтеза речи

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров7.6K

Недавно мы закончили проект по синтезу якутского языка. Хотя наши договорённости не позволяют выложить нам модели в общий доступ, какими-то соображениями на тему того, как можно делать синтез якутского языка мы поделиться можем.

Под котом катом вы узнаете:

Как звучит синтез на якутском языке;
Чем отличается якутский алфавит от русского и какие "дополнительные" звуки там есть;
Как работать с ударениями на якутском языке, с учетом полного отсутствия каких-либо корпусов или словарей;
И, в качестве бонуса, как якутский синтез речи говорит на русском с якутским акцентом;

Читать далее

Как Яндекс создал технологию эмоционального синтеза в Алисе

Время на прочтение6 мин
Количество просмотров15K

Уже скоро Алисе исполнится семь лет. К семи годам у людей уже формируется эмпатия: мы начинаем понимать чувства окружающих и осознаем, что эти чувства отражают внутреннее состояние собеседника. 

У Алисы уже давно есть узнаваемые характер и чувство юмора. Но мы хотим, чтобы наш голосовой помощник стал ещё человечнее. Поэтому мы сделали Алису более чуткой: теперь она сопереживает пользователю в трудную минуту, радуется вместе с ним в его счастливые моменты, увлеченно слушает его рассказы и не только. При выборе эмоции она учитывает ситуацию общения, реплику пользователя и текст ответа, который генерирует для нее нейросеть YandexGPT.

Например, сравните следующие фразы, произнесенные обычным и более эмоциональным образом:

Примеры — под катом

Смотрим на обновлённые умные колонки SberBoom

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров2.9K

6 августа 2024 года команда SberDevices представила умные колонки SberBoom Mini 2 и SberBoom Home. У меня было две недели, чтобы посмотреть их ближе и протестировать. В этой статье делюсь своей оценкой и наблюдениями.

Читать далее

Преодоление языковых барьеров с помощью ИИ

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров1.4K

Преодоление языковых барьеров с помощью ИИ

В современном мире видеоконтент стал одним из самых мощных инструментов для обмена информацией, обучения и развлечения. Однако для того, чтобы ваш видеоконтент мог достичь максимальной аудитории по всему миру, необходимо преодолеть языковые барьеры. Именно здесь на помощь приходит MerlinClone - сервис, основанный на ии, который позволяет локализовать ваши видео на практически любой язык мира.

Читать далее

Как сделать голосовой интерфейс к LLM

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров7.3K

В конце февраля на Бали прошел фестиваль Lampu, организованный по принципам знаменитого Burning Man. По его традиции, участники самостоятельно создают инсталляции и арт-объекты.

Мы с друзьями из кемпа 19:19, вдохновившись идеей католических исповедален, придумали сделать свой AI Confession Room, где любой желающий мог бы поговорить с искусственным интеллектом.

Читать далее

Диалекты, зумеры и боты: секреты тестирования NLU-систем

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров1.2K

Привет, Хабр! Меня зовут Даниил Трублаевич, я занимаюсь тестированием диалоговых систем в компании Just AI. Сегодня сложно отрицать, что боты, голосовые ассистенты и виртуальные помощники стали неотъемлемой частью нашей повседневной жизни. Но, чтобы эти системы были действительно эффективными, они должны не просто распознавать слова и фразы, но и корректно понимать их смысл в различных контекстах.

Тестирование NLU – сложный процесс, так как невозможно точно определить границу полноты тестирования. Для этого и существуют некоторые лайфхаки – правила тестирования, о которых хочется поговорить в этой статье. Материалы разделены на два блока: личный опыт QA-инженера и тестирование при помощи нейросетей. 

Читать далее