Обновить
11
0
Алексей @Alexey_mosc

Статистик / DS

Отправить сообщение
Я провел несколько десятков собеседований на DS в двух компаниях. Где-то 50-60 в общей сложности. Интересно, что люди из удаленных/малых регионов России, то есть, не СПБ и не МСК, — хотят переехать в центр и работать в этой сфере, но на примере около 4-6 собеседований с ними открывается их весьма слабый уровень, если честно…

Обычная ситуация: мужик говорит, я пишу для себя на (один из популярных ЯП) и люблю это дело. Я думаю, ну хорошо, может — самородок. Нет работы у него в городе, нет нормальной практики. Начинаешь спрашивать по теории — там двойка или троечка. Спрашиваешь про особенности ЯП — там тоже засада.

Даже некоторые приезжают в Москву работу поискать на очных собеседованиях. Был преподавать статистики из какого-то города, я уже забыл. Так вот какой парадокс — на простых практических кейсах, где просто надо подобрать стат.критерий он ничего сказать не может…

В общем, всех их мы отметали, они формально выступали хуже московских или питерских ребят.

Это как раз к вопросу выбраться из глубинки в тусу, где и практика есть и сообщество и постоянно конференции.

А с другой стороны, среди столичных яппи попадаются тоже те еще кадры и их тоже очень и очень много — этих кадров. Типа, хочу пилить нейронные сети! Или, бывает, 10 лет в одной конторе поработал человек, стал узким экспертом, деняк хочет очень много, разбирается, но уже зашорился и даже не слушает аргументов других специалистов…
Есть курс от Яндекса на Питоне. Он есть на курсере. Есть школа Яндекса, там в принципе хороший уровень освещается, начиная с линейной алгебры. Но опять же про DS а не ML.

Ну, конечно, нет. В среднем в Европе уровень жизни выше в несколько раз, это — понятно.

Если говорить про деньги, то и в вашем родном Питере можно жить сейчас. Я там проработал 1.5 года data scientist-ом, после оплаты за кв., кредита за машину, и помощь родителям (это, конечно, сугубо индивидуально), у меня оставалось 1.8К евро (порядка 130-135т.р.) И это при питерских ценах на еду, кафе и прочее. Кино за 150 рублей, Карл! А приехал в Питер из Москвы, куда сейчас опять и вернулся. Остается столько же, потому что кредит выплатил… И я не получаю топовую ЗП в своей области, топовые по Москве для сениора 250+ (но не везде, конеш.), а из Питера до сих пор долетают приглашалки, и все как на подбор 220+. Просто для меня Москва это гуд, Питер это эмм, тяжковато, а заграница вообще беее, не уютненько и постыло.
Хм, странно… Там ведь тоже придется оттачивать мастерство «понимать шутки и читать между строк в разговорах», вы же в обществе будете, а не в пещере.
Правильная мысль, кстати. Сначала учишься модели строить на питоне или Аре, а потом учишься общаться с программистами, чтобы они их встроили в прод.
Последовав примеру Владимира, я записался на coursera.org на специализацию из девяти курсов: «Data Science».


Надо начать с того, что если вы решили зайти в эту отрасль через этот курс, то это путь не в machine learning, а именно в data science с его графиками, статистикой и, иногда, машинным обучением, где все еще и начинается с линейных моделей, а часто им и заканчивается. В курсе кажется только они и были, а нет, еще лес случайных решений, вроде бы.

А под вакансией machine learning engineer обычно идет довольно глубокое понимание фреймворков для плетения нейронных сетей и также довольно не плохое понимание их применимости к изображениям, звуку, тексту, и т.д.

То есть, как направление развития это хорошо, думаю в языке R получше разобрались, но как база для получения работы в машинном обучении это почти совсем мимо.

Да, и, насколько я знаю, уровень ЗП в Германии это далеко не 140К в год, а что-то типа 60-65 для сениора, до которого еще дослужиться нужно.

В общем, получилось у вас как-то совсем уж анекдотично: «хочу за 300 в месяц тюнить xgboost, да не выходит».
Ага, спасибо, буду знать.

PravdaML? Это ваш новый фреймворк?

Называется высокий пассажиропоток.


Сомнительная это затея. Но теперь можно сказать, что создатели любят анекдот про "… а теперь слайды."

Я и хотел колонку-вектор сделать, если не ошибаюсь. Но я ее хотел собрать из предварительно созданных колонок… Ведь их нет изначально, а есть только две колонки — грубо говоря, document id, token. Как же сделать колонку-вектор, не разложив токены по колонкам. Вроде бы так было.
Да и можно проссуммировать по buy/sell.

Так вот, стакан это ожидания толпы в будущем, а Лента — факт действий в прошлом. Вопрос — есть ли между этими распределениями какая-то связь (так как цена в будущем это и есть центр распределения стакана). Мутно выразился, то смысл, надеюсь, ясен.
Ну да, не совсем то, или совсем не то. Просто был прецедент, дай как я раскатаю через dcast длииинный тейбл в широчееенный тейбл. Сравним с датафреймом на Spark. Оказалось совсем плохо (для последнего). Потом узнал, что, цитирую, «Spark is not optimized for wide dataframes». Услышал от спикера довольно опытного на конференции ODSC в Бостоне в прошлом году. Он мне говорит, зачем ты вообще такие широкие датафреймы строишь…

Ну и т.д. Это лишь один пример на небольших данных (пару сотен Мб).

Задача была а-ля мешок слов, а он же широкий, да.
Э, ну, я думаю, если в MetaTrader 5 есть, то уж в других, более старых, клиентах тоже должно быть. Я же говорю про тик на ЛЕНТЕ СДЕЛОК. Вот так, примерно: www.metatrader5.com/ru/releasenotes/terminal/1357

Ну вот, я сказал о том, что фильтрануть больших/маленьких игроков я конеш не смогу, но общим скопом взять сумму и сделать group by по полю type, например, за минуту, вообще смогу в легкую…
Теряется простота интерпретации. Менеджерам сложно доставить знание о log-odds. Насчет потери информации надо экспериментировать.
А мне просто стал интересен вопрос использования данных 2 уровня в моделировании. Ленту сделок можно собрать потиково для биржи, за неделю будет уже огромное количество информации. Конечно, там не будет разбивки по игрокам, но сумму по направлениям посчитать вполне реально.
Про оверхед вопрос хороший, я сам не знаю, насколько много там переливаний из пустого в порожнее прежде чем Спарк заводится. У меня остался осадок такого рода, что переписать то, что хорошо работает локально (на классах data.table()) и работает макс.быстро для R, очень муторно под Спарк. То есть, методы, которые должны быть user-friendly (высокоуровненые) вдруг не работают кое-где, и начинаешь вмешивать код SQL который прямо дословно идет в Spark SQL. А это еще страннее выглядит…
Хотя синтексис очень близок к обычному dplyr, что конечно удобно, хоть и странно, тот же data.table тут был бы роднее.
Да!
Да, возможно-возможно, что контекста нет. Решать вам.

Я думаю, что лог.регрессия на бинарных признаках тут могла тоже справиться. Поясню, что в one-hot кодируется каждая последовательность, например, 1-2-2-3: 0001.

Информация

В рейтинге
Не участвует
Откуда
Москва, Москва и Московская обл., Россия
Дата рождения
Зарегистрирован
Активность