Добрый день, спасибо за статью!) Можете ли как-то сравнить RePlay с RecTools от МТС, в чём сильные и слабые стороны и когда имеет смысл предпочесть одну или другую библиотеку?
Добрый день, спасибо за статью! Всем бы так разрешали выкладывать в open source...
(1) Можете ли как-то сравнить RePlay с RecTools от МТС, в чём сильные и слабые стороны и когда имеет смысл предпочесть одну или другую библиотеку?
(2) Про промышленное использование: "Набор данных подаётся во фреймворк через RAM посредством Pandas, Polars или Spark." Если подавать через Polars датасет размером в 100 гигабайт, он по сути полностью будет подгружаться в RAM (для сэмплирования батчей случайным образом, например) или же каким-то более умным "ленивым" способом?
Спасибо за подробный ответ! Прошу прощения за длинные посты, может быть просто сильно беспокоит тема профессиональных коммуникаций. Конечно, мне как ML инженеру лучше публично обсуждать (I)ML без обобщений на другие области (хотя затронутые вопросы могут совпадать). "Подготовка доклада требует порой огромного количества времени" - вот я ровно про то же. Реалистично это делать качественно только в рамках основной работы.
Спасибо за пример с Евгением Ильюшиным! Лично с ним не знаком и никогда о нём раньше не слышал, боюсь обидеть обсуждением. Мне кажется, что у него можно многому поучиться на его докладах. Тем не менее, выглядит так, что по сути своей работы (CTO) он (абстрагируясь от конкретного человека) руководитель, причём, видимо, руководитель руководителей программистов/исследователей (менеджер тимлидов, как сегодня могут сказать). Такие люди часто выступают на конференциях, по моим наблюдениям. Ему, очевидно, нужно иметь достаточно хорошее широкое понимание, чтобы правильно направить свой корабль (или избежать попадания на мель), в этом основная причина частых выступлений. По сути, процесс подготовки докладов в его случае во многом близок к рабочему процессу: где-то увидеть интересную идею, оформить и обсудить её в разных группах внутри и вне работы, сравнить результаты и т.п.
В моей ситуации, я работаю на более узкой поляне (достаточно многих полянах за много лет), при этом с более глубоким погружением. "Много у кого ситуация похожа на вашу" - конечно. Видимо, у очень многих. В моей ситуации, удачные технологии/разработки транслируются на миллионы пользователей. Но при этом непонятно, есть ли вообще какой-то способ транслировать заложенные в них идеи в сообщество. Как-то улучшать большими группами людей, не только в одиночку. Что хочется видеть: скажем, условный spacy.io. Эта важная вещь для развития области, вроде бы делалась совсем небольшим количеством людей в рамках маленького стартапа, судя по их интервью. И чтобы с такими вещами люди тоже массово выходили к широкой аудитории на конференциях. Ещё примеры: PaddlePaddle (из китайского), работа Зализняка по русским словоформам (отечественная) и т.д. и т.п. Такого сорта разработок, уверен, очень много в компаниях, причём коммерчески не критичных. Просто сегодня такое не принято публиковать, как будто бы очень высокий забор стоит.
В результате, в середине карьеры я просто не вижу для себя какого-то убедительного пути к взаимодействию с сообществом. Условных отечественных Илонов Масков слушать хорошо, конечно, как и задавать вопросы или активно обсуждать их презентации. Либо, как вариант, посещать конференции из серии "как я съездил на ICML" (+статьи, чаще всего китайских авторов). Но на работе сталкиваюсь ежедневно с профессиональной реальностью. В которой почти все разработки иностранные, ~запрещено рассказывать о том, что программируешь сам (или выкладывать вовне даже 1% кодов/разработок), как-либо повлиять на развитие вне своей маленькой области в рабочее время невозможно. О том, чтобы в такой ситуации кто-либо публично и совместно разрабатывал условный Pytorch/Tensorflow, даже речи не идёт. Разве что условный Сбербанк или Яндекс выложит. Но, если вы там не работаете (в небольшом количестве такого рода групп в этих компаниях), это не про вас.
А, в идеале, хочется видеть совсем другую картину. Что-то запрограммировал на работе. Более коммерчески ценные вещи компании пусть себе оставят (скажем, 90%). А остальное выкладываешь для развития сообщества, обсуждаешь со знакомыми на конференциях. Что-то они доделают, что-то заимствуешь из их разработок и сам улучшишь. Что-то удачное становится более популярным. Если компании совсем ничего не хотят отдавать (только брать, как сейчас), платят дополнительный налог (~10-20%) на развитие сообщества. И инженерам есть что презентовать сообществу в докладах - то, что можно попробовать руками и что действительно работает. Кто-то на этом научится (особенно молодёжь), есть что развивать сообща, люди будут учиться взаимодействовать вне рамок компаний, компании знакомиться с потенциальными сотрудниками, исследователи иметь широкую для исследований и т.п. Ещё аргумент: концепции в области ML обычно очень сложные, и конкуренция/развитие реализованных идей в виде open source (а не просто абстрактное обсуждение) имхо жизненно необходимо.
Наш абстрактный CTO выступает много. А легко ли какую-то конкретную интересную технологию проассоциировать с ним / его коллективом / его сообществом? (примерно как Оселедца легко проассоциировать с тензорным поездом). Снова оговорюсь, что дело в системе коммуникаций и возможностях для людей себя позиционировать в ней, не хочу обидеть конкретного человека.
Здравствуйте! Благодарю за организацию возможности для профессионального общения. Можете дать совет или высказаться? Сам я защищался в престижном месте, в котором считалось обязательно публиковаться в топовых международных (в основном, западных) местах, но это было в прошлом и довольно давно. В настоящем работаю ведущим ML инженером. Публиковаться приучали в топовых местах, и до сих пор не могу "переступить" через себя в этом. Конечно, стандарты и стиль профессионального общения бывает разный. В "западном"/международном стиле свои проблемы. Но и распространённый у нас (как в Ваших конференциях) стиль имеет свои "особенности", скажем так. Например, вроде бы у Вас нет статей от слова "совсем", к слайдам тоже нет особенно жёстких требований. Т.е. интересные идеи обычно бывают, но с воспроизводимостью или независимой проверкой зачастую совсем плохо. Новую теорию обычно тоже никогда не презентуют (не помню ни у Вас, ни на других конференциях в таком стиле). Рецензии, видимо, нежёсткие (не нацеленные на отсев 80%) - но, возможно это и неплохо. Но и найти что-то полезное в сотнях докладов (даже не статей) без аннотаций или текста, никак не проранжированных (как в paperswithcode.com) и без концептуальных рецензий/исправлений (по сути метода), зачастую скрытых (без оплаты билета), очень сложно. Для меня точно интересно было бы у Вас (или подобных местах) публиковаться в России, если было бы ещё принято выкладывать хоть какой-то код в open source по теме доклада. Но, к сожалению, это не так, запрещено под NDA и не принято. В моей компании (как и у Вас) любят рассуждать о бренде компании и личном бренде вместо вклада в общество и взаимодействия коллективов (как я это вижу), что мне совсем не по душе. А моя квалификация в основном повышается иностранными разработками/выступлениями/статьями, т.к. отечественных инструментов и прорывных разработок в ML/AI в реальной работе очень мало - хотя и на Ваших/подобных конференциях узнаю немало полезного. Найти какой-то разумный способ публиковаться/сотрудничать вовне компании/NDA, к сожалению, так и не получается, а на полставки где-то ещё для этого работать (либо забесплатно делать) уже нет возможности и желания. Извините, если обидел сообщением - возможно, я как-то неправильно понимаю ситуацию.
Добрый день, спасибо за статью!) Можете ли как-то сравнить RePlay с RecTools от МТС, в чём сильные и слабые стороны и когда имеет смысл предпочесть одну или другую библиотеку?
Добрый день, спасибо за статью! Всем бы так разрешали выкладывать в open source...
(1) Можете ли как-то сравнить RePlay с RecTools от МТС, в чём сильные и слабые стороны и когда имеет смысл предпочесть одну или другую библиотеку?
(2) Про промышленное использование: "Набор данных подаётся во фреймворк через RAM посредством Pandas, Polars или Spark." Если подавать через Polars датасет размером в 100 гигабайт, он по сути полностью будет подгружаться в RAM (для сэмплирования батчей случайным образом, например) или же каким-то более умным "ленивым" способом?
Спасибо за возможный ответ!)
Добрый день!
Спасибо за подробный ответ! Прошу прощения за длинные посты, может быть просто сильно беспокоит тема профессиональных коммуникаций. Конечно, мне как ML инженеру лучше публично обсуждать (I)ML без обобщений на другие области (хотя затронутые вопросы могут совпадать). "Подготовка доклада требует порой огромного количества времени" - вот я ровно про то же. Реалистично это делать качественно только в рамках основной работы.
Спасибо за пример с Евгением Ильюшиным! Лично с ним не знаком и никогда о нём раньше не слышал, боюсь обидеть обсуждением. Мне кажется, что у него можно многому поучиться на его докладах. Тем не менее, выглядит так, что по сути своей работы (CTO) он (абстрагируясь от конкретного человека) руководитель, причём, видимо, руководитель руководителей программистов/исследователей (менеджер тимлидов, как сегодня могут сказать). Такие люди часто выступают на конференциях, по моим наблюдениям. Ему, очевидно, нужно иметь достаточно хорошее широкое понимание, чтобы правильно направить свой корабль (или избежать попадания на мель), в этом основная причина частых выступлений. По сути, процесс подготовки докладов в его случае во многом близок к рабочему процессу: где-то увидеть интересную идею, оформить и обсудить её в разных группах внутри и вне работы, сравнить результаты и т.п.
В моей ситуации, я работаю на более узкой поляне (достаточно многих полянах за много лет), при этом с более глубоким погружением. "Много у кого ситуация похожа на вашу" - конечно. Видимо, у очень многих. В моей ситуации, удачные технологии/разработки транслируются на миллионы пользователей. Но при этом непонятно, есть ли вообще какой-то способ транслировать заложенные в них идеи в сообщество. Как-то улучшать большими группами людей, не только в одиночку. Что хочется видеть: скажем, условный spacy.io. Эта важная вещь для развития области, вроде бы делалась совсем небольшим количеством людей в рамках маленького стартапа, судя по их интервью. И чтобы с такими вещами люди тоже массово выходили к широкой аудитории на конференциях. Ещё примеры: PaddlePaddle (из китайского), работа Зализняка по русским словоформам (отечественная) и т.д. и т.п. Такого сорта разработок, уверен, очень много в компаниях, причём коммерчески не критичных. Просто сегодня такое не принято публиковать, как будто бы очень высокий забор стоит.
В результате, в середине карьеры я просто не вижу для себя какого-то убедительного пути к взаимодействию с сообществом. Условных отечественных Илонов Масков слушать хорошо, конечно, как и задавать вопросы или активно обсуждать их презентации. Либо, как вариант, посещать конференции из серии "как я съездил на ICML" (+статьи, чаще всего китайских авторов). Но на работе сталкиваюсь ежедневно с профессиональной реальностью. В которой почти все разработки иностранные, ~запрещено рассказывать о том, что программируешь сам (или выкладывать вовне даже 1% кодов/разработок), как-либо повлиять на развитие вне своей маленькой области в рабочее время невозможно. О том, чтобы в такой ситуации кто-либо публично и совместно разрабатывал условный Pytorch/Tensorflow, даже речи не идёт. Разве что условный Сбербанк или Яндекс выложит. Но, если вы там не работаете (в небольшом количестве такого рода групп в этих компаниях), это не про вас.
А, в идеале, хочется видеть совсем другую картину. Что-то запрограммировал на работе. Более коммерчески ценные вещи компании пусть себе оставят (скажем, 90%). А остальное выкладываешь для развития сообщества, обсуждаешь со знакомыми на конференциях. Что-то они доделают, что-то заимствуешь из их разработок и сам улучшишь. Что-то удачное становится более популярным. Если компании совсем ничего не хотят отдавать (только брать, как сейчас), платят дополнительный налог (~10-20%) на развитие сообщества. И инженерам есть что презентовать сообществу в докладах - то, что можно попробовать руками и что действительно работает. Кто-то на этом научится (особенно молодёжь), есть что развивать сообща, люди будут учиться взаимодействовать вне рамок компаний, компании знакомиться с потенциальными сотрудниками, исследователи иметь широкую для исследований и т.п. Ещё аргумент: концепции в области ML обычно очень сложные, и конкуренция/развитие реализованных идей в виде open source (а не просто абстрактное обсуждение) имхо жизненно необходимо.
Наш абстрактный CTO выступает много. А легко ли какую-то конкретную интересную технологию проассоциировать с ним / его коллективом / его сообществом? (примерно как Оселедца легко проассоциировать с тензорным поездом). Снова оговорюсь, что дело в системе коммуникаций и возможностях для людей себя позиционировать в ней, не хочу обидеть конкретного человека.
Есть интересный устный доклад Олега по этой теме с митапа банка Тинькофф: https://vk.com/video-151223562_456239472
Здравствуйте! Благодарю за организацию возможности для профессионального общения. Можете дать совет или высказаться? Сам я защищался в престижном месте, в котором считалось обязательно публиковаться в топовых международных (в основном, западных) местах, но это было в прошлом и довольно давно. В настоящем работаю ведущим ML инженером. Публиковаться приучали в топовых местах, и до сих пор не могу "переступить" через себя в этом. Конечно, стандарты и стиль профессионального общения бывает разный. В "западном"/международном стиле свои проблемы. Но и распространённый у нас (как в Ваших конференциях) стиль имеет свои "особенности", скажем так. Например, вроде бы у Вас нет статей от слова "совсем", к слайдам тоже нет особенно жёстких требований. Т.е. интересные идеи обычно бывают, но с воспроизводимостью или независимой проверкой зачастую совсем плохо. Новую теорию обычно тоже никогда не презентуют (не помню ни у Вас, ни на других конференциях в таком стиле). Рецензии, видимо, нежёсткие (не нацеленные на отсев 80%) - но, возможно это и неплохо. Но и найти что-то полезное в сотнях докладов (даже не статей) без аннотаций или текста, никак не проранжированных (как в paperswithcode.com) и без концептуальных рецензий/исправлений (по сути метода), зачастую скрытых (без оплаты билета), очень сложно. Для меня точно интересно было бы у Вас (или подобных местах) публиковаться в России, если было бы ещё принято выкладывать хоть какой-то код в open source по теме доклада. Но, к сожалению, это не так, запрещено под NDA и не принято. В моей компании (как и у Вас) любят рассуждать о бренде компании и личном бренде вместо вклада в общество и взаимодействия коллективов (как я это вижу), что мне совсем не по душе. А моя квалификация в основном повышается иностранными разработками/выступлениями/статьями, т.к. отечественных инструментов и прорывных разработок в ML/AI в реальной работе очень мало - хотя и на Ваших/подобных конференциях узнаю немало полезного. Найти какой-то разумный способ публиковаться/сотрудничать вовне компании/NDA, к сожалению, так и не получается, а на полставки где-то ещё для этого работать (либо забесплатно делать) уже нет возможности и желания. Извините, если обидел сообщением - возможно, я как-то неправильно понимаю ситуацию.