Search
Write a publication
Pull to refresh
10
0
Kunitsyn Pavel @kunitsynpv

ML Engineer

Send message

Спасибо за статью! А как в такой архитектуре организовать ad-hoc аналитику из Jupyter, например? Выходит, что для запуска spark приложений через оператор всегда нужен скрипт и образ.

Спасибо за комментарий!

Осведомленность других стейкхолдеров, в том числе руководства, в вопросах реализации DS-проектов не очень касается проблематики статьи, но также интересна для обсуждения. Мы планируем полноценную публикацию с ответом на этот вопрос позднее.

Для ответа на вопрос про разметку необходимо понять, с какими данными мы имеем дело: структурированными или нет, небольшими датасетами или нет. Предполагаю, что вы говорите про ручную разметку неструктурированных данных – ошибки разметки в этом случае встречаются часто. В таком случае можно пойти несколькими шагами: 1) использовать несколько людей для разметки одновременно, 2) использовать эксперта для стандартизации процесса оценки и 3) изменить входные данные при их недостаточной предсказательной возможности.

Добрый день! Слово в облаке есть, но, возможно, стоило сделать его больше. Математическая статистика, действительно, играет ключевую роль в нашем деле. Спасибо, что обратили внимание!

Information

Rating
11,649-th
Location
Россия
Works in
Registered
Activity