Комментарии / Профиль MaximML / Хабр

Привет, хороший вопрос. Применяя udf в spark, мы можем извлечь любую информацию, дополняя ту, которая уже была упомянута. В контексте той же самой udf мы дополнительно извлекаем: размер батча, вес батча в мегабайтах, доля целевой переменной, некоторые статистики по категориальным переменным. Все это - не ключевая, но тоже важная информация для мониторинга и анализа. Ее быстрее и проще достать за один прогон spark udf функции, а не каждую по отдельности

Куда поехать в пятницу вечером, если ты в Питере. Сравнение алгоритмов геокластеризации

MaximML 2 фев 2022 в 09:28

Согласен с вами. Помимо фильтров по дню недели (пятница) и времени (вечер с 17 до 24), стоит дополнительно различать поездки, которые совершаются регулярно (даже в пятницу) - наш условный шум, и те, которые действительно совершаются только по пятницам. Но полученный топ 5 обласей на последней картинке, это действительно топ 5. То есть все полученные области оказались в центре.

Как метод подмены задачи борется с несовершенством данных (и мира)

MaximML 28 янв 2022 в 06:49

Автор вдохновлялся статьями о ковариантном сдвиге?

Геоанализ этажности Санкт-Петербурга алгоритмом KDE, или Как меняется облик города

MaximML 29 сен 2021 в 10:51

Если есть желание глубже понять принципы работы алгоритма, очень советую видеолекции Вадима Леонардовича Аббакумова, там вся необходимая база :) Если коротко, то размер окна ядра - это величина радиуса окружности с центром в каждой точке дома на карте.

Собственная методология разработки R&D-проектов в AI, от идеи до создания

MaximML 1 сен 2021 в 12:57

Чем решение с отдельной ML-платформой лучше, чем решение, основанное на использовании шаблонов под каждый процесс, если в компании эти процессы устоялись? Какова «стоимость» внедрения ML-платформы, если существует не самый оптимальный, но работающий процесс ML пайплайнов? (С той же контейнеризацией и Kubernetes)

Голосовой дневник на python с распознаванием голоса и сохранением в Mongo DB

MaximML 5 июл 2021 в 15:37

Спасибо за пояснения!

Голосовой дневник на python с распознаванием голоса и сохранением в Mongo DB

MaximML 30 июн 2021 в 07:12

Если напрягаться и стараться говорить четко и медленно, то почти всегда 100% качество распознавания. Если говорить как при обычном общении, то в тексте будут проскакивать не те слова, которые я говорил. И ещё фоновый шум влияет на качество распознавания

Голосовой дневник на python с распознаванием голоса и сохранением в Mongo DB

MaximML 28 июн 2021 в 07:42

docker — не моя сильная сторона… не отрицаю, что есть способы сделать деплой оптимальнее. Про бэкапы — интересный вопрос, возможно, я копну глубже в эту сторону в следующих публикациях :)

Голосовой дневник на python с распознаванием голоса и сохранением в Mongo DB

MaximML 28 июн 2021 в 07:40

vosk объект загружается в оперативную память из файла — модели, русскоязычная модель готова к применению «из коробки» и доступна из официального источника