Pull to refresh
21
0
Максим @MaximML

Machine Learning Team Lead, автор канала @ml_maxim

Send message

Код бота и алгоритм оценки есть в этом репозитории

Об этом топик «Чего мы добились», или там получилось не очень наглядно?

Наверное опечатка. Статью подготовило много людей из разной предметной области. Поэтому довольно широкий взгляд на применение Python

Это супер. Интересный кейс с ошибкой, которая приводит к запуску важного процесса. Без ошибки он мог и не запуститься, сам по себе

Отлично! Спасибо за комментарий.

Спасибо за комментарий, действительно, на это следует обратить внимание

Справедливое замечание, и классный совет про использование какого-либо фреймворка. Мы периодически думаем про это

Привет, хороший вопрос. Применяя udf в spark, мы можем извлечь любую информацию, дополняя ту, которая уже была упомянута. В контексте той же самой udf мы дополнительно извлекаем: размер батча, вес батча в мегабайтах, доля целевой переменной, некоторые статистики по категориальным переменным. Все это - не ключевая, но тоже важная информация для мониторинга и анализа. Ее быстрее и проще достать за один прогон spark udf функции, а не каждую по отдельности

Согласен с вами. Помимо фильтров по дню недели (пятница) и времени (вечер с 17 до 24), стоит дополнительно различать поездки, которые совершаются регулярно (даже в пятницу) - наш условный шум, и те, которые действительно совершаются только по пятницам. Но полученный топ 5 обласей на последней картинке, это действительно топ 5. То есть все полученные области оказались в центре.

Автор вдохновлялся статьями о ковариантном сдвиге?

Если есть желание глубже понять принципы работы алгоритма, очень советую видеолекции Вадима Леонардовича Аббакумова, там вся необходимая база :) Если коротко, то размер окна ядра - это величина радиуса окружности с центром в каждой точке дома на карте.

Чем решение с отдельной ML-платформой лучше, чем решение, основанное на использовании шаблонов под каждый процесс, если в компании эти процессы устоялись? Какова «стоимость» внедрения ML-платформы, если существует не самый оптимальный, но работающий процесс ML пайплайнов? (С той же контейнеризацией и Kubernetes)

Если напрягаться и стараться говорить четко и медленно, то почти всегда 100% качество распознавания. Если говорить как при обычном общении, то в тексте будут проскакивать не те слова, которые я говорил. И ещё фоновый шум влияет на качество распознавания

docker — не моя сильная сторона… не отрицаю, что есть способы сделать деплой оптимальнее. Про бэкапы — интересный вопрос, возможно, я копну глубже в эту сторону в следующих публикациях :)
vosk объект загружается в оперативную память из файла — модели, русскоязычная модель готова к применению «из коробки» и доступна из официального источника

Information

Rating
Does not participate
Registered
Activity