All streams
Search
Write a publication
Pull to refresh
5
0
Андрей Чубин @andreyds95

User

Send message

Не очень понятно, как скейлинг объёма продаж помог решить проблему холодного старта ?

LightGBM требует определённых Си-шных библиотек, при их отсутствие могут возникать проблемы. Так же иногда бывают конфликты версий этих библиотек. Там у меня в Гите есть requirements.txt, лучше наверное попробовать установить всё из него (соблюдая версии) в venv, используя Python 3.9.

Точнее помочь трудно, так как я не знаю, какая именно ошибка у тебя вылезла ?

Спасибо, очень интересный пост получился!

Очень неудобно, что нужно знать максимум и минимум у фичи. Это ограничивает обучение на большом объёме данных. И что делать с категориальными фичами? Мне кажется тут должно быть что-то интереснее обычного WOE или Target Encoding

Основная проблема таких бенчмарков - это то, что они не учитывают, что pyarrow, polars и тд. поддерживают только 60-70% функциональности pandas, что убивает все приросты от повышенной скорости. А если надо обрабатывать огромные объёмы, то для этого давно есть Spark (а уж Spark + Scala вообще топ)

Не знаю, я на свою первую работу пошёл в 24, карьера сложилась неплохо (сейчас мне 28), кмк. Всё индивидуально. Чем раньше начинаешь тем быстрее сгораешь

Ну, ты сразу за больное. Даже создатели при переходе со Scala 2 на Scala 3 признали, что с implicit они перемудрили ?

А тут в примере имплиситная монада, видимо, чтобы мозг окончательно взорвался. Вообще в этом примере почти все перемудрёные штуки собрались. Тут тебе и возможность писать методы с условно динамической типизацией, и монады (прикол чисто функциональных языков, в Scala перекочевало из Haskell), и implicit (что они употребляли, когда это придумывали?), и pattern matching, и даже смесь инфиксной и постфиксной нотации.

Многое из этого действительно очень полезно, но пригодится в единичных случаях (про комплексные числа и диффуры вообще не уверен), не считаем статистику, она будет нужна 100%. Но работодатель вряд ли будет погружаться в теорию на собеседовании, скорее вопросы будут практического характера, так как по моим наблюдениям, много где сеньоры и лиды уже не помнят почти ничего из указаннного (или никогда не знали)

Работал в Яндексе в прошлом году аналитиком-разработчиком, в принципе очень хорошее место для работы, только ппц скучно, так как всё уже отлажено и отлично работает. Даже интересные задачи очень быстро превращаются в рутину. Автору желаю удачи и советую не боготворить Яндекс, как многие сотрудники))

Весь подход настроен на тех, кто может сосредоточиться и подготовиться. Навыки второстепенны

Абсолютно не согласен с автором. Техсобесы не всегда нацелены на то, чтобы помучать специалиста, а скорее на то, чтобы понять насколько его опыт релевантен для компании, насколько гибко кандидат может мыслить. В принципе никто и не подразумевает, что на все ответы будет дан правильный ответ, иногда даже неправильный можно зачесть, если кандидат продемонстрировал, что он может рассуждать логически. В этом плане техсобесы не более чем продолжение обычных собесов, никакой игры тут нет.

А разве не DS занимаются ИИ? Просто я сам Data Scientist, мы стараемся избегать громкого выражения «искусственный интеллект», но я не знаю никакой другой профессии, которая была бы ближе к теме ?

В Сбере докер запрешён для вывода в прод (не знаю правда как в девайсах с этим обстоит дело), политика кибербезопасности, там вообще очень многое под запретом, из-за чего практики MLOps слабо похожи на такие в других местах

Спасибо, очень интересная статья.

Заметил небольшую неточность.

А уже на выходе мы получаем вероятность успеха звонка по звуку.

Это не совсем верно. Софтмакс/сигмоида не переводит магическим образом логиты в вероятности. Вот тут можно кратенько узнать почему.

Я не знаю в чём причина, но думаю в том, что у ребят Wear OS стоит на 100500 месте по приоритету, так как там ЦА в 3,5 человека, и учитывая, что платформа в стадии активного развития

А как этот метод показал себя по сравнению с Prophet или нейросетевыми решениями вроде GRU, Time Convolutional Network, NBeats или Temporal Fusion Transformer?

Статья точно не заслуживает столько минусов)) Если абстрагироваться от компании-автора статьи, то инфа однозначно будет полезна. В целом это всё вроде бы очевидные вещи, но многие об этом забывают. Даже самый гениальный разработчик не нужен среднестатистической компании, если он не сможет влиться в команду. Я не раз проводил собесы и могу сказать, что развитые софт скиллы и подготовка к собесу (один соискатель даже целую презентацию сделал, чтобы рассказать о себе, на общем фоне даже такое цепляет), могут перекрыть некоторые пробелы по технической части

MinMaxScaler по идее не оказывает вообще никакого влияния на качество вердиктов моделей, основанных на деревьях: RF, XGBoost, CatBoost и тд.

Попробовал представленную библиотеку PyTorch-LifeStream. Интересное решение, но у меня возник такой же вопрос, как и при использовании sberbank-lightautoml. Умышленно ли делается api совершенно непонятным по логике и без учёта устоявшихся паттернов (например, scikit-learn-like api)?

Так же вероятно стоит разнести реализации для pyspark и local, так как без удаления некоторых файлов библиотека не запускается из коробки (хотя эта фича не является основной) (но это уже придирки)

Scala классно себя проявляет, если работать с Apache Spark, там даже уже есть классные либы для распределённого ML (Catboost for Spark, XGBoost4Spark, LGBM for Spark и тд.). Но в других задачах ML юзабилити у Scala критически отстаёт от Python

Не очень понятны плюсы этого языка над уже существующими вроде Python. Так как синтаксис для тех, кто не заканчивал CS и не работал с C/C++, выглядит очень перегруженным

Information

Rating
Does not participate
Location
Дубаи, Дубаи, О.А.Э.
Date of birth
Registered
Activity

Specialization

Data Scientist
Senior
From 600,000 ₽
Python
TENSORFLOW
Pytorch
Keras
SQL
Scala
Spark
Machine learning