Comments / Profile of kunitsynpv / Habr

ML Engineer

Subscribers

Как сделать Spark в Kubernetes простым в использовании: опыт команды VK Cloud

kunitsynpv Jun 28 2025 at 13:42

Спасибо за статью! А как в такой архитектуре организовать ad-hoc аналитику из Jupyter, например? Выходит, что для запуска spark приложений через оператор всегда нужен скрипт и образ.

Подводные камни в работе с данными в проектах Data Science

kunitsynpv Nov 18 2021 at 12:04

Спасибо за комментарий!

Осведомленность других стейкхолдеров, в том числе руководства, в вопросах реализации DS-проектов не очень касается проблематики статьи, но также интересна для обсуждения. Мы планируем полноценную публикацию с ответом на этот вопрос позднее.

Для ответа на вопрос про разметку необходимо понять, с какими данными мы имеем дело: структурированными или нет, небольшими датасетами или нет. Предполагаю, что вы говорите про ручную разметку неструктурированных данных – ошибки разметки в этом случае встречаются часто. В таком случае можно пойти несколькими шагами: 1) использовать несколько людей для разметки одновременно, 2) использовать эксперта для стандартизации процесса оценки и 3) изменить входные данные при их недостаточной предсказательной возможности.

Как перейти в Data Science из другой сферы

kunitsynpv Sep 30 2021 at 14:28

Добрый день! Слово в облаке есть, но, возможно, стоило сделать его больше. Математическая статистика, действительно, играет ключевую роль в нашем деле. Спасибо, что обратили внимание!