Привет, хороший вопрос. Применяя udf в spark, мы можем извлечь любую информацию, дополняя ту, которая уже была упомянута. В контексте той же самой udf мы дополнительно извлекаем: размер батча, вес батча в мегабайтах, доля целевой переменной, некоторые статистики по категориальным переменным. Все это - не ключевая, но тоже важная информация для мониторинга и анализа. Ее быстрее и проще достать за один прогон spark udf функции, а не каждую по отдельности
Согласен с вами. Помимо фильтров по дню недели (пятница) и времени (вечер с 17 до 24), стоит дополнительно различать поездки, которые совершаются регулярно (даже в пятницу) - наш условный шум, и те, которые действительно совершаются только по пятницам. Но полученный топ 5 обласей на последней картинке, это действительно топ 5. То есть все полученные области оказались в центре.
Если есть желание глубже понять принципы работы алгоритма, очень советую видеолекции Вадима Леонардовича Аббакумова, там вся необходимая база :) Если коротко, то размер окна ядра - это величина радиуса окружности с центром в каждой точке дома на карте.
Чем решение с отдельной ML-платформой лучше, чем решение, основанное на использовании шаблонов под каждый процесс, если в компании эти процессы устоялись? Какова «стоимость» внедрения ML-платформы, если существует не самый оптимальный, но работающий процесс ML пайплайнов? (С той же контейнеризацией и Kubernetes)
Если напрягаться и стараться говорить четко и медленно, то почти всегда 100% качество распознавания. Если говорить как при обычном общении, то в тексте будут проскакивать не те слова, которые я говорил. И ещё фоновый шум влияет на качество распознавания
docker — не моя сильная сторона… не отрицаю, что есть способы сделать деплой оптимальнее. Про бэкапы — интересный вопрос, возможно, я копну глубже в эту сторону в следующих публикациях :)
vosk объект загружается в оперативную память из файла — модели, русскоязычная модель готова к применению «из коробки» и доступна из официального источника
Код бота и алгоритм оценки есть в этом репозитории
Об этом топик «Чего мы добились», или там получилось не очень наглядно?
Автоматизация и правда развязывает руки
Наверное опечатка. Статью подготовило много людей из разной предметной области. Поэтому довольно широкий взгляд на применение Python
Это супер. Интересный кейс с ошибкой, которая приводит к запуску важного процесса. Без ошибки он мог и не запуститься, сам по себе
Отлично! Спасибо за комментарий.
Спасибо за комментарий, действительно, на это следует обратить внимание
Справедливое замечание, и классный совет про использование какого-либо фреймворка. Мы периодически думаем про это
Привет, хороший вопрос. Применяя udf в spark, мы можем извлечь любую информацию, дополняя ту, которая уже была упомянута. В контексте той же самой udf мы дополнительно извлекаем: размер батча, вес батча в мегабайтах, доля целевой переменной, некоторые статистики по категориальным переменным. Все это - не ключевая, но тоже важная информация для мониторинга и анализа. Ее быстрее и проще достать за один прогон spark udf функции, а не каждую по отдельности
Согласен с вами. Помимо фильтров по дню недели (пятница) и времени (вечер с 17 до 24), стоит дополнительно различать поездки, которые совершаются регулярно (даже в пятницу) - наш условный шум, и те, которые действительно совершаются только по пятницам. Но полученный топ 5 обласей на последней картинке, это действительно топ 5. То есть все полученные области оказались в центре.
Автор вдохновлялся статьями о ковариантном сдвиге?
Если есть желание глубже понять принципы работы алгоритма, очень советую видеолекции Вадима Леонардовича Аббакумова, там вся необходимая база :) Если коротко, то размер окна ядра - это величина радиуса окружности с центром в каждой точке дома на карте.
Чем решение с отдельной ML-платформой лучше, чем решение, основанное на использовании шаблонов под каждый процесс, если в компании эти процессы устоялись? Какова «стоимость» внедрения ML-платформы, если существует не самый оптимальный, но работающий процесс ML пайплайнов? (С той же контейнеризацией и Kubernetes)
Спасибо за пояснения!
Если напрягаться и стараться говорить четко и медленно, то почти всегда 100% качество распознавания. Если говорить как при обычном общении, то в тексте будут проскакивать не те слова, которые я говорил. И ещё фоновый шум влияет на качество распознавания