Pull to refresh

Comments 6

А где этап подгонки данных под готовые выводы?

UFO just landed and posted this here

Да, он будет полезней для DS, чем для аналитика данных. Но там все равно есть:

  • датасеты, которые можно использовать в своих проектах;

  • примеры кода для чистки данных, исследовательского анализа, визуализации - это равно актуально и для аналитиков данных, и для DS;

  • в открытом доступе лежат проекты по датасетам оч часто без использования методов машинного обучения - и оттуда можно почерпнуть идеи для своих проектов.

И это проверенно лично.

Добрый день! Еще могу подчеркнуть, что если Вы просто переходите из другой профессии и становитесь аналитиком данных, то можно практиковаться в Вашей организации на конкретных данных. Однако я пока не нашла способ, как можно поделится этими личными проектами для резюме и портфолио. По сути работодатель ищет аналитика с опытом работы на реальных данных, но из за наличия конфиденциальности ты не можешь их продемонстрировать. Я в своей организации провела анализ рынка и выявила очень опасную тенденцию. 1 самый крупный клиент сейчас приносит до 80 процентов выручки и со временем этот процент только растет. Я обнаружила, что даже 5 других крупнейших клиентов потихоньку приносят меньше выручки. Средняя выручка по клиентам падает. И хоть этот клиент приносит все больше и больше, общий доход снижается, потому что фактически этот клиент пожирает весь рынок. И если вдруг наши конкуренты захотят заполучить этого клиента и подмять под себя весь рынок, им будет достаточно перекупить только этого клиента. Я бы хотела поделится своими выводами для портфолио, но не могу разглашать финансовые данные. Вот такая дилемма. Есть что показать, а показать не можешь не нарушая конфиденциальность.

Да, действительно при демонстрации данных своего работодателя сложно не нарушить требования конфиденциальности. Можно анонимизировать данные:

  • Умножить или разделить числовые значения на коэффициенты. Лучше всего работает с ценами, т.к. 2 знака после запятой позволяют сделать это без вреда для проекта. Сложней с количеством товара, т.к. покупать "0,33 кирпича" никто не будет.

  • Изменить даты - подвинуть на неделю/месяц/год. Из-за сезонности проще всего сдвигать на год.

  • Закодировать названия копаний на "компания 1", "компания 2".... Так же поступить с остальными строковыми значениями.

  • Удалить часть данных случайным образом. Либо, наоборот, дублировать.

Во вступлении к проекту надо явно прописать, что данные были анонимизирвоанны с сохранением реальных соотношений.

Но даже этот рецепт не дает 100% гарантии НЕ выдачи конфиденциальной информации. Потенциальный работодатель видит ваше резюме, видит ваш проект и может сложить 2 и 2. Тогда можно добавить, что это было проект для стороннего заказчика и вы связаны соглашением о неразглашении. Поэтому можете ответить не на все вопросы о проекте и не можете раскрыть всех деталей.

Все описанное не является, к сожалению, универсальным рецептом. Иногда, увы, ничего не помогает. И остается только делать еще один проект на общедоступных данных.

Sign up to leave a comment.