Андрей Чубин @andreyds95
User
Information
- Rating
- Does not participate
- Location
- Дубаи, Дубаи, О.А.Э.
- Date of birth
- Registered
- Activity
Specialization
Data Scientist
Senior
From 600,000 ₽
Python
TENSORFLOW
Pytorch
Keras
SQL
Scala
Spark
Machine learning
Не очень понятно, как скейлинг объёма продаж помог решить проблему холодного старта ?
LightGBM требует определённых Си-шных библиотек, при их отсутствие могут возникать проблемы. Так же иногда бывают конфликты версий этих библиотек. Там у меня в Гите есть requirements.txt, лучше наверное попробовать установить всё из него (соблюдая версии) в venv, используя Python 3.9.
Точнее помочь трудно, так как я не знаю, какая именно ошибка у тебя вылезла ?
Спасибо, очень интересный пост получился!
Очень неудобно, что нужно знать максимум и минимум у фичи. Это ограничивает обучение на большом объёме данных. И что делать с категориальными фичами? Мне кажется тут должно быть что-то интереснее обычного WOE или Target Encoding
Основная проблема таких бенчмарков - это то, что они не учитывают, что pyarrow, polars и тд. поддерживают только 60-70% функциональности pandas, что убивает все приросты от повышенной скорости. А если надо обрабатывать огромные объёмы, то для этого давно есть Spark (а уж Spark + Scala вообще топ)
Не знаю, я на свою первую работу пошёл в 24, карьера сложилась неплохо (сейчас мне 28), кмк. Всё индивидуально. Чем раньше начинаешь тем быстрее сгораешь
Ну, ты сразу за больное. Даже создатели при переходе со Scala 2 на Scala 3 признали, что с implicit они перемудрили ?
А тут в примере имплиситная монада, видимо, чтобы мозг окончательно взорвался. Вообще в этом примере почти все перемудрёные штуки собрались. Тут тебе и возможность писать методы с условно динамической типизацией, и монады (прикол чисто функциональных языков, в Scala перекочевало из Haskell), и implicit (что они употребляли, когда это придумывали?), и pattern matching, и даже смесь инфиксной и постфиксной нотации.
Многое из этого действительно очень полезно, но пригодится в единичных случаях (про комплексные числа и диффуры вообще не уверен), не считаем статистику, она будет нужна 100%. Но работодатель вряд ли будет погружаться в теорию на собеседовании, скорее вопросы будут практического характера, так как по моим наблюдениям, много где сеньоры и лиды уже не помнят почти ничего из указаннного (или никогда не знали)
Работал в Яндексе в прошлом году аналитиком-разработчиком, в принципе очень хорошее место для работы, только ппц скучно, так как всё уже отлажено и отлично работает. Даже интересные задачи очень быстро превращаются в рутину. Автору желаю удачи и советую не боготворить Яндекс, как многие сотрудники))
Весь подход настроен на тех, кто может сосредоточиться и подготовиться. Навыки второстепенны
Абсолютно не согласен с автором. Техсобесы не всегда нацелены на то, чтобы помучать специалиста, а скорее на то, чтобы понять насколько его опыт релевантен для компании, насколько гибко кандидат может мыслить. В принципе никто и не подразумевает, что на все ответы будет дан правильный ответ, иногда даже неправильный можно зачесть, если кандидат продемонстрировал, что он может рассуждать логически. В этом плане техсобесы не более чем продолжение обычных собесов, никакой игры тут нет.
А разве не DS занимаются ИИ? Просто я сам Data Scientist, мы стараемся избегать громкого выражения «искусственный интеллект», но я не знаю никакой другой профессии, которая была бы ближе к теме ?
В Сбере докер запрешён для вывода в прод (не знаю правда как в девайсах с этим обстоит дело), политика кибербезопасности, там вообще очень многое под запретом, из-за чего практики MLOps слабо похожи на такие в других местах
Спасибо, очень интересная статья.
Заметил небольшую неточность.
Это не совсем верно. Софтмакс/сигмоида не переводит магическим образом логиты в вероятности. Вот тут можно кратенько узнать почему.
Я не знаю в чём причина, но думаю в том, что у ребят Wear OS стоит на 100500 месте по приоритету, так как там ЦА в 3,5 человека, и учитывая, что платформа в стадии активного развития
А как этот метод показал себя по сравнению с Prophet или нейросетевыми решениями вроде GRU, Time Convolutional Network, NBeats или Temporal Fusion Transformer?
Статья точно не заслуживает столько минусов)) Если абстрагироваться от компании-автора статьи, то инфа однозначно будет полезна. В целом это всё вроде бы очевидные вещи, но многие об этом забывают. Даже самый гениальный разработчик не нужен среднестатистической компании, если он не сможет влиться в команду. Я не раз проводил собесы и могу сказать, что развитые софт скиллы и подготовка к собесу (один соискатель даже целую презентацию сделал, чтобы рассказать о себе, на общем фоне даже такое цепляет), могут перекрыть некоторые пробелы по технической части
MinMaxScaler по идее не оказывает вообще никакого влияния на качество вердиктов моделей, основанных на деревьях: RF, XGBoost, CatBoost и тд.
Попробовал представленную библиотеку PyTorch-LifeStream. Интересное решение, но у меня возник такой же вопрос, как и при использовании sberbank-lightautoml. Умышленно ли делается api совершенно непонятным по логике и без учёта устоявшихся паттернов (например, scikit-learn-like api)?
Так же вероятно стоит разнести реализации для pyspark и local, так как без удаления некоторых файлов библиотека не запускается из коробки (хотя эта фича не является основной) (но это уже придирки)
Scala классно себя проявляет, если работать с Apache Spark, там даже уже есть классные либы для распределённого ML (Catboost for Spark, XGBoost4Spark, LGBM for Spark и тд.). Но в других задачах ML юзабилити у Scala критически отстаёт от Python
Не очень понятны плюсы этого языка над уже существующими вроде Python. Так как синтаксис для тех, кто не заканчивал CS и не работал с C/C++, выглядит очень перегруженным