Обновить
64K+

Голосовые интерфейсы *

управляем устройствами при помощи голосовых команд

34,99
Рейтинг
Сначала показывать
Порог рейтинга
Уровень сложности

Как я вайбкодил озвучку текста для AutoCraft

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели2.5K

С этим расширением всё началось довольно просто: я хотел упростить себе озвучку книг и больших текстов внутри своего проекта, а не прыгать каждый раз между разными сервисами и программами.

План был обычный: вставил текст, выбрал движок, получил озвучку.

Но потом, как это часто бывает, всё поехало чуть дальше:

— LLM подкинула несколько идей
— кто-то попросил добавить дополнительные возможности
— а мне самому пришлось разбираться с символами, которые вообще не должны озвучиваться

В итоге из обычной функции озвучки выросло отдельное расширение для веб-панели AutoCraft.

Сразу уточню: эта статья именно про расширение Win TTS для веб-панели.

Про саму веб-панель я потом напишу отдельно, когда доведу её до состояния, которое меня устроит.

Читать далее

Новости

Как заставить англоязычную нейросеть читать по-русски (и стоит ли оно того)

Время на прочтение4 мин
Охват и читатели9.4K

Сегодня полностью погрузимся в мир TTS (Text-to-Speech) — новое русло нейросетей, призванных облегчить жизнь и отобрать работу у профессиональных дикторов, актеров и тех, чей голос мы привыкли слышать в любимых фильмах.

Рассмотрим бесплатные модели, не требующие кредитов, подписок или трех цифр на обороте карты. Заранее обозначу, что не все модели поддерживают русский язык, а у некоторых присутствует своеобразный акцент, как у Шварценеггера из фильма «Красная жара». 

Я буду генерировать озвучку не только на английском, но и на русском языке, чтобы понять, насколько отличается качество звучания и произношения, и можно ли вообще использовать эти модели, закрыв глаза на ограничение языков.

Читать далее

Проект «Прометей»: как озвучить целую библиотеку за один вечер при помощи ИИ

Уровень сложностиСредний
Время на прочтение8 мин
Охват и читатели12K

Каждый из вас хоть раз ловил себя на мысли: «А почему бы не начать слушать книги вместо того, чтобы их читать?». Пока едешь в метро, стоишь в пробке, занимаешься домашней рутиной или вместо приевшейся музыки в спортзале — сценариев масса.

В сети полно литературы, но если вы эстет и ищете что-то глубже «Онегина» или модных бестселлеров, то наверняка сталкивались с проблемой: нужной книжки в аудио просто не существует.

Так вот, тут мы попадаем в ловушку. Технологий синтеза речи (TTS) сейчас море, а вменяемого инструмента, чтобы массово превращать текст в звук, нет.

Либо вы платите корпорациям за каждый символ через официальные API, превращая чтение в дорогую привычку, либо ковыряете софт, застрявший в эпохе Windows XP, который озвучивает файлы дольше, чем вы бы читали их вслух сами.

Я системный администратор. Моя работа — заставлять системы работать эффективно, и я не люблю ждать. Не люблю, когда мой домашний компьютер превращается в жужжащую печку, показывая 1% прогресса в час. Этот материал — не просто туториал, а технический разбор и своего рода «дневник» процесса разработки проекта «Прометей». Мы посмотрим, как превратить выделенный сервер в промышленную фабрику аудиокниг, способную выдавать 20 часов готового звука за 11 минут.

Читать далее

Разрабатываем голосового ассистента на Rockchip. Часть 2

Уровень сложностиСредний
Время на прочтение15 мин
Охват и читатели7.9K

Продолжаю разрабатывать DIY голосового ассистента на SOC-платформе Rockchip.

В первой части смы соединили в единый конвейер вызов распознавания речи, локального чат-бота и синтез ответа.

Если еще не читали, то вам сюда.

Во второй части поговорим об улучшениях работы с синтезом речи. Научим нашего ИИ-помощника произносить текст, содержащий сложные для моделей сущности, а также сделаем его более плавным.

Читать далее

Распознавание речи и голосовое управление на Repka Pi 4, автономная работа, real-time, нейросеть Vosk на базе Kaldi

Уровень сложностиСредний
Время на прочтение18 мин
Охват и читатели9.2K

В современном мире технологии распознавания речи используются очень широко. Например, они нашли применение в системах управления умным домом, в устройствах IoT, при управлении различным оборудованием. Наличие в одноплатных микрокомпьютерах портов вводы/вывода и промышленных интерфейсов позволяет управлять устройствами голосом.

В статье рассказано, как настроить локальное (автономно работающее) распознавание речи в реальном времени на микрокомпьютере отечественного Российского производства Repka-Pi 4 Optimal, на борту у которого есть всего 2 Гбайт оперативной памяти.

Рассмотрим такую работу на конкретных примерах и разберём подробно, как это работает. Дальше простор для фантазии и создания своих проектов открывается безграничный.

Читать далее

Как я собрал свою собственную умную колонку и Wi-Fi mesh-роутер в одном флаконе или конкурент для Яндекс станции

Уровень сложностиСредний
Время на прочтение13 мин
Охват и читатели23K

Привет Хабр! Меня зовут Алексей и я занимаюсь беспроводными технологиями. В этой статье я расскажу, как собрал прототип своей собственной умной колонки, объединённой в одном устройстве вместе с Wi-Fi mesh-роутером. Начну издалека и поразмышляю о том, какие плюсы может принести такое устройство как для качественного Wi-Fi в квартире, так и для производителей умных колонок. Проанализирую уже существующие на рынке решения и попробую собрать собственное устройство из USB-аудиокарты, роутера и обычной Bluetooth-колонки.

Читать далее

Наш синтез для 20 языков теперь работает локально под Windows как экранная читалка (SAPI5) и в Балаболке

Уровень сложностиПростой
Время на прочтение3 мин
Охват и читатели14K

Всё шло к этому. Мы решили задачу омографов в русском языке (мы уже готовим большое расширение). Мы попробовали насколько это физически возможно решить задачу ударения хотя бы для славянских языков (мы уже опубликовали модели-акценторы для русского, украинского и белорусского языков). Мы опубликовали синтез для 20 языков России и стран СНГ.

Вы уже много раз упоминали, что неплохо бы завезти наш синтез в SAPI5-интерфейс. Звёзды сошлись, нам написал разработчик, который занимается разработкой таких интерфейсов для Windows и всё завертелось.

Теперь пришло время попробовать соединить это всё воедино в виде SAPI5-интерфейса для синтеза для Windows. Основная фишка тут получается в том, что наш синтез настолько быстрый, что его можно использовать как локальный синтез в Windows на CPU, так и как экранную читалку. И да, вы верно всё поняли. Это также значит, что оно из коробки будет работать с Балаболкой и другими подобными программами (и не будет требовать GPU).

Да, это только первый, по сути пробный, релиз нашего интерфейса. Будем признательны вам за обратную связь и комментарии. Мы сильно хотели успеть к новому году и сделать всем небольшой новогодний подарок! Надеюсь, что комьюнити оценит.

Протестируем!

Для чего нужен Умный дом и почему я разработала свое устройство

Уровень сложностиПростой
Время на прочтение13 мин
Охват и читатели9.3K

Для чего нужен Умный дом и почему я разработала свое устройство

История о разработке устройства умного дома без опыта, с минимальными ресурсами и максимальными приключениями в течение 6 лет. МУЗА — одно простое устройство для управления всеми основными функциями Умного дома, умная колонка с Алисой, датчиками и камерой в одном корпусе.

Читать далее

Голосовое управление на складе: как мы внедряем Voice Picking и что из этого получается

Уровень сложностиПростой
Время на прочтение20 мин
Охват и читатели7.3K

Меня зовут Александр, я руковожу отделом внедрения в INTEKEY. Мы — системные интеграторы в логистике. Это значит, что мы помогаем складам автоматизировать процессы комплексно: от анализа задач и выбора технологий до внедрения, обучения и поддержки.

В этой статье я хочу поделиться нашим опытом работы с голосовым управлением (VoicePicking/Pick-by-Voice*) на складах. Нашим партнером в этом направлении выступает компания Айвойс с платформой GOLAS. Мы начали работать с этой технологией несколько лет назад, и за это время внедрили ее на разных объектах.

Я расскажу, как это работает на практике, с какими техническими и организационными нюансами мы сталкивались и на что стоит обратить внимание, если вы рассматриваете такую возможность для своего склада.

*Voice Picking (голосовой отбор, Pick-by-Voice) — это технология автоматизации складских процессов, при которой сотрудники получают задания и подтверждают их выполнение с помощью голосовых команд через гарнитуру. Это полностью безбумажный и hands-free метод работы, который интегрируется со складской системой управления (WMS) для обмена данными в реальном времени.

Читать далее

Как в звонках автоматически находить первые признаки выгорания операторов кол-центра

Время на прочтение10 мин
Охват и читатели5.9K

Привет, Хабр!

Выгорание операторов — распространенная проблема в кол-центрах. По разным оценкам, текучесть персонала здесь достигает 40–45%, а средний срок работы составляет 8–12 месяцев. Это приводит к дополнительным расходам на обучение, росту нагрузки на команду и снижению качества сервиса. При этом заметные изменения в поведении сотрудников обычно фиксируются слишком поздно — когда проблема уже стала системной.

Я Катя Саяпина, менеджер продукта МТС Exolve. В этом материале разберу способ раннего обнаружения таких изменений. Он опирается на статистические отклонения в поведении оператора и дополняет прямое общение с сотрудниками и сбор обратной связи в команде. Мы создадим на Python сервис, который объединит Telegram-бота, API МТС Exolve и LLM, развернутую на платформе MWS GPT.

Читать далее

Автоматизация приема заказов по телефону. Личный опыт и реальные результаты

Время на прочтение8 мин
Охват и читатели4.9K

Каждый день миллионы клиентов звонят в компании по телефону - и каждый такой звонок обходится бизнесу в деньги, время и репутацию. Операторы выгорают от монотонных разговоров, клиенты бросают трубку после долгого ожидания, а бизнес теряет прибыль на рутине, которую давно пора автоматизировать.

Я уже несколько лет занимаюсь разработкой и внедрением голосовых ботов для приема заказов по телефону - не в теории, а для реальных компаний, с реальными клиентами и реальными заказами.

В этой статье я поделюсь конкретными кейсами, которые помогут владельцам и руководителям бизнеса понять:

Какую реальную пользу приносит автоматизация (и почему это не просто модное слово).

С какими трудностями сталкивались на практике - и как их преодолевали.

Каких результатов удалось достичь - в реальных цифрах, фактах и отзывах.

Читать далее

Multi-API Ensemble: 95% точности транскрипции региональных топонимов

Уровень сложностиСредний
Время на прочтение28 мин
Охват и читатели7.6K

В статье полный разбор архитектуры, алгоритмы scoring, примеры кода и расчёт экономики.

Один STT-сервис дал 60-70% точности на специфической лексике (топонимы, названия улиц, профессиональные термины). Два сервиса параллельно + взвешенное голосование + AI-fusion для спорных случаев дали 95%+ точности. Время обработки 5-8 секунд.

Читать далее

xAI провела 24-часовой хакатон: как инженеры использовали Grok в играх, рекрутинге и кибербезопасности

Уровень сложностиСредний
Время на прочтение4 мин
Охват и читатели6K

Компания xAI представила результаты 24-часового внутреннего хакатона, на котором команда разработчиков создавала прототипы на базе Grok - AI-модели, тесно интегрированной с платформой X. Формат был простым: сутки непрерывной работы и полная свобода экспериментировать с агентами, обработкой данных и интеграциями. Но именно эта «сжатость» хорошо показала, как быстро Grok превращается в инструмент для прикладных задач, а не просто чат-модель.

Читать далее

Ближайшие события

Разбираемся, что слышит умная колонка. О нелинейных искажениях и метрике FRR

Уровень сложностиСредний
Время на прочтение8 мин
Охват и читатели9.4K

Салют, Хабр!  

Меня зовут Александр. Я DSP-инженер, то есть специалист по цифровой обработке сигналов, и в SberDevices занимаюсь VQE — Voice Quality Enhancement, блоком улучшения качества звука. Мы разработали методику, которая позволяет прогнозировать качество распознавания голоса (так называемую метрику FRR) по объективным показателям работы эхоподавления, а измерения и оценку параметров стандартизировали. Благодаря этому методику можно использовать для любых устройств без сложного дополнительного оборудования. Сегодня расскажу о ней.

Читать далее

Разрабатываем голосового ассистента на Rockchip. Часть 1

Уровень сложностиСредний
Время на прочтение19 мин
Охват и читатели7.5K

Всем привет! Я Виктор Загускин, руководитель отдела голосового ML в MWS AI. Мы разрабатываем продукт формата «спичкит» — распознавание и синтез речи, анализ ее содержания. Наши клиенты используют эту технологию как кубики для создания прикладных продуктов. Чтобы лучше прочувствовать их потребности и боли, лучше познакомиться с тем, как реализовать голосовые ассистенты на основе современных решений, я решил попробовать сделать подобный продукт самостоятельно. Это будет работающий на локальном устройстве голосовой ассистент со встроенной LLM.

В этом цикле материалов я буду рассказывать о процессе создания ассистента, примененных технологиях, выбранном железе, трудностях и путях их преодоления, буду  демонстрировать этапы работ. Попутно расскажу основные концепции, необходимые для реализации голосовых технологий. 

Первая часть цикла посвящена базе — выбору «железа», тулкитов для инференса, моделей для синтеза и распознавания речи и LLM. Поехали!

Читать далее

Как я Альфе новый навык делал и что из этого вышло

Уровень сложностиСредний
Время на прочтение11 мин
Охват и читатели9.4K

Привет, Хабр!

Время от времени я возвращаюсь к своему pet-проекту голосового ассистента с кодовым именем «Альфа», который разрабатывался как приватный голосовой интерфейс (а-ля «умная колонка») для управления своим «Умным домом». И в этот раз – так сошлись звезды или под влиянием магнитных бурь – мне очень захотелось добавить новый навык. А что из этого вышло, читайте далее.

Читать далее

Нейросеть на смене, или как мы избавили супервайзеров от ручной прослушки и автоматизировали контроль качества звонков

Уровень сложностиПростой
Время на прочтение10 мин
Охват и читатели5.5K

Мы построили систему речевой аналитики на базе искусственного интеллекта. Она распознаёт речь, выделяет проблемные диалоги и автоматически оценивает качество звонков. Рассказываю, как мы выстраивали пайплайн распознавания и анализа речи, боролись с искажениями моделей и добивались того, чтобы ИИ понимал разговорную речь не хуже человека.

Читать далее

Мы опубликовали стабильный, быстрый, качественный и доступный синтез для 20 языков России

Уровень сложностиПростой
Время на прочтение13 мин
Охват и читатели20K

Представляем наш синтез для языков России и СНГ. В этот раз получилось покрыть 20 языков, всего 95 голосов. От старой демки этот релиз отличается следующим:

Модель поддерживает SSML;

Модель стала быстрее ещё на 20-25% (она и так была супер быстрой);

С живыми дикторами были подписаны договоры на запись их голоса;

Запись велась в максимально высоком из практически доступного качестве;

Для ряда языков опубликованы модели простановки ударений и / или словари с ударениями в рамках silero-stress;

К модели синтеза применены все оптимизации, как к нашей прошлой публичной модели;

Для демки мы брали шумные публичные данные низкого качества. В этот раз всё хорошо - как следствие существенно выросло качество синтеза.

Читать далее

Голосовой ввод для Windows через Vosk своими руками

Уровень сложностиПростой
Время на прочтение10 мин
Охват и читатели12K

Я пытался найти в Windows похожий встроенный инструмент или готовое решение, но все они либо брали на себя слишком много неактуального для меня функционала, так как задумывались для людей с ограниченными возможностями, либо были платными, либо были недоступны для русского языка.

Лучшим выходом из моей ситуации было создать свое минималистичное решение, и вот как это было:

Читать далее

Мы добавили поддержку ещё 19 языков России и СНГ в проект silero-stress

Уровень сложностиПростой
Время на прочтение2 мин
Охват и читатели12K

Мы недавно писали на Хабр о нашей библиотеке silero-stress для простановки ударения в обычных словах и омографах. Теперь у нашего проекта silero-stress вышла версия v1.2, в которую вошло следующее:

Что вошло?
1
23 ...