Alexander Veysov @snakers4

Machine Learning / Data Science

Doctor_IT Sep 13 2024 at 12:15

Долгожданная RTX 4090 для ML и не только: дайджест новинок

4 min

5.7K

Selectel corporate blogIT Infrastructure*IT-companiesVideo cards

Digest

Последний месяц лета оказался насыщенным на события и продуктовые обновления. Например, мы завезли RTX 4090 – одну из лучших видеокарт GeForce на базе архитектуры Ada Lovelace. Данная GPU отлично подходит для рендеринга и стриминга видео, 3D-моделирования и запуска инференса ML-моделей.

Но это еще не все! В августе мы завезли запустили Security Center, добавили группы пользователей в IAM и не только. Интересно узнать подробности? Добро пожаловать под кат!

Читать дальше →

+35

nurtdinovadf Oct 18 2023 at 14:29

Быстрый денойз аудио в высоком качестве

2 min

3.7K

SoundMachine learning*

Не всегда можно записать аудио в идеальной тишине

Довольно давно мы сделали у себя в целом простой нетребовательный денойз, а выложить модели как-то руки всё не доходили. Решили наконец-то исправить данное недоразумение.

Читать дальше →

+12

chibiryaev Jun 1 2023 at 10:49

Минëр: сапëр наоборот

Easy

2 min

17K

JavaScript*Logic gamesGame development*

Review

Что будет, если взять известную игру сапëр и изменить игровой процесс на обратный? Получится игра минëр

Так выглядит расклад в минëре на новичке.

Если задача в сапëре разминировать поле, то задаче в игре минëр наоборот — заминировать.

Читать дальше →

+96

nurtdinovadf Mar 3 2022 at 13:46

Наши сервисы для бесплатного распознавания речи стали лучше и удобнее

3 min

11K

Start-up developmentMachine learning*SoundVoice user interfaces*Natural Language Processing*

Сейчас для всех желающих доступны два наших сервиса для распознавания речи:

Бот в телеграме для коротких и не очень длинных аудио (мы не стали обходить ограничения телеграма, основная задача бота — распознавать голосовые сообщения);
Сервис audio-v-text.silero.ai для более длинных аудио, в котором можно скачать отчет в виде эксельки.

Сервис написан нашими собственными силами, работает на нашем собственном движке распознавания речи, без проксирования во внешние сервисы и с минимально возможным количеством зависимостей. В случае нарушения связности возможен оперативный перевод хостинга в другие регионы.

Мы провели и продолжаем работу над ошибками и внесли ряд улучшений для пользователей, о которых мы бы хотели рассказать.

Читать дальше →

+26

nurtdinovadf Dec 13 2021 at 09:57

Парсим ГАР БД ФИАС в удобный формат в питоне. Бесплатно, без регистрации и СМС

8 min

31K

Open data*Geoinformation services*OpenStreetMap*Data Engineering*Big Data*

Tutorial

20160419_182146

Если вам зачем-то понадобилась полная адресная база России, то самый простой и дешевый способ ее заполучить — это скачать на сайте налоговой. Да, вот так вот просто все. Ну почти.

Да, это полная официальная адресная база России, просто в открытом доступе, никто ничего не спрашивает, просто раздают. Сделали на наши налоги, и честно всем, как скамейку в парке, отдают в пользование. Прекрасно? Да!

"В чем же подвох?", — спросите вы, прищурившись.

Кратко: формат ужасен, документация очень плоха и должного единообразия данных не наблюдается, чем успешно пользуются коммерческие компании, перепродающие бесплатные данные (иногда пылесосят имейлы). Но такую несправедливость можно исправить.

Читать дальше →

Islanna Mar 5 2020 at 20:50

Нормализация текста в задачах распознавания речи

4 min

12K

Natural Language Processing*Open source*SoundMachine learning*

From sandbox

При решении задач, связанных с распознаванием (Speech-To-Text) и генерацией (Text-To-Speech) речи важно, чтобы транскрипт соответствовал тому, что произнёс говорящий — то есть реально устной речи. Это означает, что прежде чем письменная речь станет нашим транскриптом, её нужно нормализовать.

Другими словами, текст нужно провести через несколько этапов:

Замена числа прописью: 1984 год -> тысяча девятьсот восемьдесят четвёртый год;
Расшифровка сокращений: 2 мин. ненависти -> две минуты ненависти;
Транскрипция латиницы: Orwell -> Оруэлл и т.д.

Normalization

В этой статье я коротко расскажу о том, как развивалась нормализация в датасете русской речи Open_STT, какие инструменты использовались и о нашем подходе к задаче.

Как вишенка на торте, мы решили выложить наш нормализатор на базе seq2seq в открытый доступ: ссылка на github. Он максимально прост в использовании и вызывается одним методом:

norm = Normalizer()
result = norm.norm_text('С 9 до 11 котики кушали whiskas')

>>> 'С девяти до одиннадцати котики кушали уискас'

Читать дальше →

+32

evrrn Dec 9 2021 at 20:06

Восстановление знаков пунктуации и заглавных букв — теперь и на длинных текстах

5 min

7.8K

Big Data*Natural Language Processing*Python*Machine learning*

После релиза нашей первой модели, расставляющей знаки препинания и большие буквы, было много пожеланий доработать её, чтобы она могла обрабатывать тексты целиком, а не отдельные предложения. Это коллективное пожелание и было осуществлено в нашей новой версии модели.

В целом, архитектура и датасеты остались прежними. Что изменилось:

обучение теперь производилось не на отдельных предложениях, а на нескольких последовательных предложениях (принимаем во внимание, что конструктивное ограничение модели при обучении — 512 токенов на вход, что позволяет свободно подавать ~150 слов на любом из четырех поддерживаемых языков)
для ускорения обучения модели сокращение словаря теперь проводилось не только на инференсе, но и на трейне, что позволило увелить размер батча

Читать дальше →

+20

adamnsandle Dec 10 2021 at 15:32

А ты используешь VAD? Что это такое и зачем он нужен

5 min

17K

Python*Voice user interfaces*Artificial IntelligenceMachine learning*

Очень часто при работе мы обращаем внимание на то, что все люди знают, что такое распознавание речи, но не знают, что такое Voice Activity Detector (VAD) или детектор речи. А ведь именно VAD на самом деле самый важный алгоритм при работе с речью людей в естественной среде обитания.

Как ни странно, если поискать поддерживаемые и высококачественные решения данной задачи в публичном доступе — найдутся буквально пара проектов достаточного уровня. Но вот незадача — академические решения тяжелы (и иногда работают запретительно долго) и зачастую принимают только целые аудио на вход (нельзя использовать потоково). Решение от Google (WebRTC) очень быстрое но плохо отличает речь от шума (но его можно использовать потоково). А некоторые коммерческие решения "привязаны" к личному кабинету и шлют какую-то телеметрию.

Мы решили исправить это недоразумение и сделать уникальный VAD мирового уровня (судите сами по метрикам), который работает на 1 ядре процессора с задержкой в 1 миллисекунду на кусочках аудио от 30 миллисекунд. В этой статье мы расскажем вам, что такое VAD, покажем на примерах как использовать его и наглядно потестировать на своем голосе.

Читать дальше →

+22

Sontref Nov 18 2021 at 22:18

Проблема омографов в задачах G2P и автоматической простановки ударений

6 min

2.8K

Machine learning*Natural Language Processing*

From sandbox

Задачи автоматического перевода слов в фонемы, автоматической простановки ударения, и автоматической простановки буквы ё сейчас решаются довольно успешно даже на уровне открытых решений (например: 1, 2, 3).
Тем не менее, практически ни одно открытое решение не позволяет разрешать неопределённости, возникающие при обработке слов-омографов. И оказывается, что эта на первый взгляд незначительная деталь очень сильно влияет на восприятие результатов алгоритмов (будь то G2P или автоматические ударения). В статье предлагаются некоторые способы решения проблемы омографов, а также указывается основная причина того, что эта задача до сих пор не решена публично.

nurtdinovadf Nov 5 2021 at 16:50

Бесплатное распознавание речи для всех желающих

3 min

20K

Natural Language Processing*Voice user interfaces*SoundMachine learning*Start-up development

Читать дальше →

+20

snakers4 Jun 10 2018 at 16:33

Состязательные атаки (adversarial attacks) в соревновании Machines Can See 2018

7 min

15K

Python*Machine learning*Image processing*

Или как я оказался в команде победителей соревнования Machines Can See 2018 adversarial competition.

Суть любых состязательных атак на примере.

Так уж получилось, что мне довелось поучаствовать в соревновании Machines Can See 2018. Я присоединился к соревнованию я поздновато (примерно за неделю до окончания), но в конечном итоге оказался в команде из 4 человек, где вклад троих из нас (включая меня) был необходим для победы (убрать одну составляющую — и мы бы оказались в аутсайдерах).

Цель соревнования — изменять лица людей так, что сверточная нейросеть, предоставленная как черный ящик организаторами, не могла различить лицо-источник от лица-цели. Допустимое количество изменений было ограничено SSIM.

Читать дальше →

+24

snakers4 Apr 22 2018 at 17:55

Применяем Deep Watershed Transform в соревновании Kaggle Data Science Bowl 2018

7 min

8.5K

Image processing*Machine learning*Python*Data Mining*

Применяем Deep Watershed Transform в соревновании Kaggle Data Science Bowl 2018

Представляем вам перевод статьи по ссылке и оригинальный докеризированный код. Данное решение позволяет попасть примерно в топ-100 на приватном лидерборде на втором этапе конкурса среди общего числа участников в районе нескольких тысяч, используя только одну модель на одном фолде без ансамблей и без дополнительного пост-процессинга. С учетом нестабильности целевой метрики на соревновании, я полагаю, что добавление нескольких описанных ниже фишек в принципе может также сильно улучшить и этот результат, если вы захотите использовать подобное решение для своих задач.

описание пайплайна решения

Читать дальше →

+27

snakers4 May 4 2017 at 05:39

Нейрокурятник: часть 1. Установка Raspberry Pi и камеры в курятник и их настройка

9 min

26K

Machine learning*Python*Open source*Data Mining*

Tutorial

Большой брат следит за тобой, птица!

Статьи про нейрокурятник

Заголовок спойлера

Вступление про обучение себя нейросетям
Железо, софт и конфиг для наблюдения за курами
Бот, который постит события из жизни кур — без нейросети
Разметка датасетов
Работающая модель для распознавания кур в курятнике
Итог — работающий бот, распознающий кур в курятнике

Читать дальше →

+35