Статьи / Профиль snakers4 / Хабр

Alexander Veysov@snakers4

Machine Learning / Data Science

19,1

Рейтинг

447

Подписчики

ПрофильСтатьи82Посты1Новости1Комментарии1.6K

snakers4 24 июн в 07:13

Как мы разрабатывали TTS для Ил-2 Штурмовик

Средний

12 мин

9.9K

Машинное обучение * Разработка игр * Natural Language Processing * Голосовые интерфейсы *

Кейс

Так получилось, что нам посчастливилось принять участие в разработке синтеза для новой версии игры "Ил-2 Штурмовик". Это был длинный путь, но в итоге у нас получилось:

Что получилось?

+16

snakers4 4 июн в 07:58

Наш синтез для экранных читалок (SAPI5) для 20 языков России стал лучше

Простой

3 мин

7.6K

Машинное обучение * Искусственный интеллектГолосовые интерфейсы * Natural Language Processing * Open source *

Обзор

Мы не так давно опубликовали SAPI5-обёртку для нашего синтеза на 20 языков России и СНГ. В этот раз опять немного сошлись звёзды и мы уже публикуем улучшение наших читалок. Чтобы не растекаться мыслью по древу и не повторяться, вот краткий список улучшений (полную подводку можно прочитать в прошлой статье):

Покажите список улучшений

+16

snakers4 27 мар в 14:08

Теперь silero-tts v5 на русском языке умеет задавать вопросы

Простой

4 мин

11K

Голосовые интерфейсы * Natural Language Processing * Open source * Python * Машинное обучение *

Обзор

Мы недавно писали про обновление нашего публичного синтеза, silero-tts. В прошлый раз мы существенно увеличили скорость, качество и добавили поддержку омографов.

В этот раз мы хотим вас порадовать особенной фичей, которая в большинстве случаев стабильно не работает даже в моделях синтеза, которые требуют для своей работы на 3-4 порядка больше вычислительных ресурсов и современные серверные видеокарты (наш синтез запускается даже на слабых процессорах).

Как вы догадались, эта фича — это постановка вопросов.

Хочу послушать вопросы

+41

snakers4 30 дек 2025 в 15:17

Наш синтез для 20 языков теперь работает локально под Windows как экранная читалка (SAPI5) и в Балаболке

Простой

3 мин

15K

Машинное обучение * Open source * Natural Language Processing * Голосовые интерфейсы * Искусственный интеллект

Всё шло к этому. Мы решили задачу омографов в русском языке (мы уже готовим большое расширение). Мы попробовали насколько это физически возможно решить задачу ударения хотя бы для славянских языков (мы уже опубликовали модели-акценторы для русского, украинского и белорусского языков). Мы опубликовали синтез для 20 языков России и стран СНГ.

Вы уже много раз упоминали, что неплохо бы завезти наш синтез в SAPI5-интерфейс. Звёзды сошлись, нам написал разработчик, который занимается разработкой таких интерфейсов для Windows и всё завертелось.

Теперь пришло время попробовать соединить это всё воедино в виде SAPI5-интерфейса для синтеза для Windows. Основная фишка тут получается в том, что наш синтез настолько быстрый, что его можно использовать как локальный синтез в Windows на CPU, так и как экранную читалку. И да, вы верно всё поняли. Это также значит, что оно из коробки будет работать с Балаболкой и другими подобными программами (и не будет требовать GPU).

Да, это только первый, по сути пробный, релиз нашего интерфейса. Будем признательны вам за обратную связь и комментарии. Мы сильно хотели успеть к новому году и сделать всем небольшой новогодний подарок! Надеюсь, что комьюнити оценит.

Протестируем!

+43

snakers4 24 ноя 2025 в 05:09

Мы опубликовали стабильный, быстрый, качественный и доступный синтез для 20 языков России

Простой

13 мин

21K

Машинное обучение * Open source * Natural Language Processing * Голосовые интерфейсы * Искусственный интеллект

Обзор

Сезон ИИ в разработке

✏️ Технотекст 8

Представляем наш синтез для языков России и СНГ. В этот раз получилось покрыть 20 языков, всего 95 голосов. От старой демки этот релиз отличается следующим:

Модель поддерживает SSML;

Модель стала быстрее ещё на 20-25% (она и так была супер быстрой);

С живыми дикторами были подписаны договоры на запись их голоса;

Запись велась в максимально высоком из практически доступного качестве;

Для ряда языков опубликованы модели простановки ударений и / или словари с ударениями в рамках silero-stress;

К модели синтеза применены все оптимизации, как к нашей прошлой публичной модели;

Для демки мы брали шумные публичные данные низкого качества. В этот раз всё хорошо - как следствие существенно выросло качество синтеза.

+77

124

snakers4 22 ноя 2025 в 17:27

Мы добавили поддержку ещё 19 языков России и СНГ в проект silero-stress

Простой

2 мин

13K

Голосовые интерфейсы * Natural Language Processing * Open source * Python * Машинное обучение *

Обзор

Мы недавно писали на Хабр о нашей библиотеке silero-stress для простановки ударения в обычных словах и омографах. Теперь у нашего проекта silero-stress вышла версия v1.2, в которую вошло следующее:

Что вошло?

+28

snakers4 31 окт 2025 в 08:36

Мы опубликовали silero-tts v5 на русском языке

Простой

4 мин

20K

Голосовые интерфейсы * Natural Language Processing * Open source * Python * Машинное обучение *

Обзор

Время пришло. Мы решили задачу омографов (пока в первой версии, но идей ещё вагон) и теперь удовольствие от публикации наших новых публичных моделей синтеза наконец-то будет полным! Более того, что следом за ними пойдут ещё кое-какие модели, но это будет сюрприз.

Итак представляем вам новый v5 релиз наших публичных моделей для синтеза речи!

Что поменялось?

+44

snakers4 9 окт 2025 в 18:34

Мы решили задачу омографов и ударений в русском языке

Средний

10 мин

20K

Data Mining * Open source * Python * Natural Language Processing * Машинное обучение *

Обзор

Мы наконец решили задачу омографов. Конечно, с рядом оговорок, куда без них. Получилось пресловутое приключение на 20 минут.

Несмотря на кажущуюся простоту (задача по сути является бинарной классификацией, число кейсов с тремя валидными вариантами ничтожно мало), задача является просто кладезем различных "мин замедленного действия" и типичных граблей в сфере машинного обучения. Да, задачу "ёфикации" (расстановка буквы ё там, где люди её поленились поставить) мы считаем частным случаем задачи простановки ударений и омографов.

Также мы опубликовали наше продуктовое решение для простановки ударений (в омографах в том числе) в рамках репозитория silero-stress и также напрямую через pypi. В ближайшее время добавим эту модель и обновим наши публичные модели синтеза и раскатим более мощную "большую" (тоже маленькую по современным меркам) версию модели в приватные сервисы и для клиентов. Также мы опубликовали бенчмарки качества и скорости публичных академических решений … и там всё очень неоднозначно.

Наливайте себе чай, садитесь поудобнее. Мы постараемся описать наш путь длиной в вечность без лишних подробностей.

Сели, налили, читаем

+72

snakers4 9 сен 2025 в 14:09

Играемся с видеокартой Tesla H100 (GH100)

Средний

9 мин

34K

Машинное обучение * Компьютерное железоИскусственный интеллектВидеокарты

Обзор

Продолжаем статьи про практические тесты актуальных картонок от Nvidia (RTX 5090, A5000 Ada, A100, 3090 и A10). В этот раз мне уже предложили покрутить на несколько часиков H100 с 80 GB VRAM.

Тренировать опять ничего не будем, снимем попугаев через gpu-burn , попробуем MIG (multi-instance GPU) и также замерим инференс одной нашей прожорливой сетки.

С A100 и MIG мне как-то тоже пришлось поиграться, но я не думал, что в России в принципе когда-либо появятся H100. Поэтому в этот раз главная шутка будет про санкции и про сумочку, сделанную из H100.

Также пару слов расскажем про "фишку" MIG, доступную для самых толстых карт в линейках NVIDIA (из "доступных" в основном A100 и H100, но есть и экзотика).

В конце даже получилась небольшая детективная история.

Поехали

+17

snakers4 26 авг 2025 в 07:50

Новый релиз публичного детектора голоса Silero VAD v6

Средний

2 мин

15K

Python * Open source * Голосовые интерфейсы * Искусственный интеллектМашинное обучение *

Туториал

На Хабре уже было аж 3 статьи про развитие нашего публичного детектора голоса Silero VAD (последняя тут). А вот что стало лучше в этот раз:

Хочу узнать!

+28

snakers4 27 мая 2025 в 17:42

Играемся с RTX 5090 (GB202) для инференса

Средний

7 мин

15K

Машинное обучение * Компьютерное железоИскусственный интеллектВидеокарты

Обзор

Продолжаем статьи про практические тесты актуальных картонок от Nvidia (A5000 Ada, A100, 3090 и A10). В этот раз мне предложили (не реклама) денёк погонять Nvidia RTX 5090 в хостинге (себе такую брать я бы не стал), и я не мог отказаться от такого предложения.

За день что‑то стоящее натренировать нынче уже проблематично, поэтому будем «снимать» уже привычных обратно совместимых «попугаев» через gpu-burn и также замерим скорость инференса одной нашей довольно прожорливой сетки в продакшене.

Все шутки про Nvidia давно уже не шутки, санкции и торговые войны идут своим чередом, но тем не менее в России новинки появляются с завидной регулярностью несмотря на все запреты.

На фоне сильно негативного новостного фона со стороны игрового сообщества про новый релиз Nvidia и своеобразных «успехов» Nvidia по ~~наращиванию своей капитализации~~ продвинутой «сегментации» рынка (все уже пошутили про новый коннектор, огромный рост TDP и размера карт), мне лично было интересно, а есть ли рост 50* поколения карт для наших задач против 30* поколения.

Если верить техно‑ и игровым блоггерам, их новое поколение совсем не впечатлило. Меня зато так «впечатлило» 40* поколение, что мы даже не рассматривали апгрейд 3090. Но обо всём по порядку.

Давайте разбираться!

+22

snakers4 9 янв 2025 в 11:46

Делаем быстрый, качественный и доступный синтез на языках России — нужно ваше участие

Простой

1 мин

6.1K

Natural Language Processing * Искусственный интеллектГолосовые интерфейсы * КраудсорсингМашинное обучение *

Привет, Хабр!

В этом году мы делаем проект Фонда Бортника по разработке модели синтеза речи языков России и СНГ. Возможно, нас на Хабре вы знаете по статьям про синтез речи, детектор голоса или через одного популярного бота для озвучки в Телеграме (на всякий не буду ссылку прикладывать).

Наша основная задача - сделать удобный, быстрый, устойчивый, качественный и нетребовательный к вычислительным ресурсам синтез на самых популярных у нас в стране и в ближайшем зарубежье языках.

По итогу проекта планируется публикация общедоступных моделей синтеза языка под свободной лицензией (MIT). Мы бы хотели покрыть как минимум 10 популярных языков. Всего популярных языков (более 100 тысяч носителей) 30+, так что, в принципе, тут есть, где разгуляться.

Поэтому ищем людей, у которых два родных языка (русский и второй родной), которые бы помогли нам с рядом вещей:

С чем?

+21

snakers4 17 окт 2024 в 04:00

Сравнение систем распознавания русского языка 2024

Средний

3 мин

11K

Машинное обучение * Искусственный интеллектГолосовые интерфейсы * Яндекс API *

Аналитика

После значительной паузы, опять пришло время обновить наше исследование (прошлое, позапрошлое) качества систем распознавания русского языка. Опять же, мы не думали, что добежим до этого момента и были удивлены результатами.

В этот раз ситуация такая:

Какая?

+10

snakers4 20 авг 2024 в 16:44

Особенности фонетики якутского языка для синтеза речи

Средний

6 мин

14K

Голосовые интерфейсы * Natural Language Processing * Изучение языковИскусственный интеллектМашинное обучение *

Кейс

Недавно мы закончили проект по синтезу якутского языка. Хотя наши договорённости не позволяют выложить нам модели в общий доступ, какими-то соображениями на тему того, как можно делать синтез якутского языка мы поделиться можем.

Под ~~котом~~ катом вы узнаете:

Как звучит синтез на якутском языке;
Чем отличается якутский алфавит от русского и какие "дополнительные" звуки там есть;
Как работать с ударениями на якутском языке, с учетом полного отсутствия каких-либо корпусов или словарей;
И, в качестве бонуса, как якутский синтез речи говорит на русском с якутским акцентом;

+45

snakers4 27 июн 2024 в 20:51

Наш публичный детектор голоса стал быстрее в 3 раза (*), качественнее, устойчивее и теперь работает на 6 000 языках

Простой

1 мин

9.1K

Python * Open source * Голосовые интерфейсы * Искусственный интеллектМашинное обучение *

Обзор

Мы уже рассказывали про наш детектор голоса на Хабре тут, тут и тут. Кратко опишу, что стало лучше в этот раз:

Поддержка 6 000+ языков;

Общий рост качества на 5-7%;

Существенно повышена устойчивость на шумных данных;

TorchScript (*) стал в 3 раза быстрее, а ONNX - на 10% (теперь они примерно равны по скорости, обработка 1 кусочка аудио занимает 325 и 189 μs соответственно);

+24

snakers4 24 июн 2024 в 14:36

Собираем полноценный NAS с 4 NVME дисками размером с небольшую книгу

Простой

6 мин

73K

Настройка Linux * Хранение данных * Компьютерное железоDIY или Сделай сам

Обзор

Увидев видео про эту плату, я подумал, что она по сути может быть полноценной медиа приставкой, файлопомойкой и торрентокачалкой одновременно и при этом занимать место размером с маленькую книгу формата А5 и кушать 5 ватт в простое, работая 24/7. Вкусно!

На самом деле несмотря на маркетинг, нормальная комплектация стоит порядка 175 долларов (а не 100, плюс доставка и растаможка) и диски, естественно не входят в эту цену. Речь идёт про плату CM3588 на базе системы на чипе RK3588. Маркетинговая страничка, спецификация, вики. Комплектов на алике очень много вариантов (с корпусами и всякими доп. железками) - выбирайте очень аккуратно.

Изначально мне казалось будет приключение на 20 минут, но в итоге пришлось чуть повозиться и не всё получилось. В этой статье я расскажу, что именно получилось сделать с этой платой, а что не получилось и какие-то минимальные результаты тестирования прошивок от производителя, дисков и копирования файлов по сети.

Что получилось, что не получилось?

+26

125

snakers4 22 мая 2024 в 19:29

Всё, Телеграм теперь уподобился «плохим» корпорациям?

Простой

4 мин

76K

Социальные сетиУправление продуктом * Управление сообществом * Проектирование API * Мессенджеры *

Кейс

Вопреки ценностям, которыми бравировал Павел Дуров во время своего интервью Такеру Карлсону, некоторые администраторы крупных телеграм-ботов (~сотни тысяч DAU) буквально только что получили вот такое сообщение:

Читать сообщение

213

snakers4 11 апр 2024 в 03:26

Мы опубликовали датасет для детекции речи размером более 150 тысяч часов на 6000+ языках

Простой

2 мин

5.1K

Natural Language Processing * ЗвукМашинное обучение * Открытые данные * Big Data *

Обзор

Мы выложили в публичный доступ гигантский датасет для детекции речи (voice activity detection).

Датасет содержит порядка 150 тысяч часов аудио более чем на 6,000 языках. Количество уникальных ISO-кодов данного датасета не совпадает с фактическим количеством языков, так как близкие языки могут кодироваться одним и тем же кодом.

Данные были размечены для задачи детекции голоса при временной дискретизации примерно в 30 миллисекунд (или 512 семплов при частоте дискретизации 16 килогерц).

Данный датасет распространяется под лицензией CC BY-NC-SA 4.0.

Давайте смотреть датасет

+18

snakers4 1 фев 2024 в 07:29

Всё /var/lib/docker пожрал … docker

Простой

2 мин

38K

Системное администрирование * Виртуализация * Серверное администрирование *

Небольшая юмористическая заметка на тему того, что делать, если докер всё пожрал всё место на диске, от для человека, который каждый день работает с докером ~~не шарит за докер.~~

Заметку написала моя коллега, орфография и пунктуация по возможности сохранены. В какой-то момент ей надоело вспоминать или гуглить как чистить мусор, который оставляет докер, его билды, образы и вольюмы, и она свела всё в одну заметку.

Как мне кажется, получилось довольно смешно. Всё написанное в статье выдумка, любые совпадения с реальным миром случайны, если вы вводите в консоль sudo или его аналог - вы делаете это на свой страх и риск. Слова, замененные на другие для соблюдения правил Хабра, выделил курсивом, но думаю всё поймут, что было в оригинале написано.

+12

snakers4 28 янв 2024 в 12:23

Играемся с RTX 5000 Ada (AD103): первые впечатления

Средний

6 мин

27K

Машинное обучение * Компьютерное железоИскусственный интеллектВидеокарты

Обзор

Майнинг и использование для майнинга в этой статье не обсуждается.

У меня есть пара старых статей (про A100, и про 3090 и A10) и также вот есть тоже старое, но всё еще неплохое и актуальное сравнение карточек для расчетов от Selectel. С тех пор прошло примерно два года и пора написать что-то новенькое и попробовать новые ускорители для расчетов. Да, это всё ещё статья про карточку Nvidia, не AMD и не Intel, и не про китайцев и какие-то модные большие чипы, увы.

С тех пор появились новые карточки уже аж двух новых поколений - Ada Lovelace и Hopper. При этом Hopper вроде как должны были прийти на замену очень удачному поколению Ampere (это древняя традиция Nvidia - за супер успешным поколением следует менее удачное), но не пришли. Но возможно из-за торговых войн с Китаем карточки поколения Hopper стали выдавать только нужным вендорам и в виде собранных систем и при этом запретили экспорт в Китай.

В этой статьей мы разберем первые впечатления от карточки NVIDIA RTX 5000 Ada Generation (AD103), но начнем с небольшой дозы юмора.

Давайте разбираться!

+11

2 3 4 5