ML misfits club или что делать когда тебя не взяли никуда / Хабр

TLDR; Я расстроился, что меня не взяли в ШАД, а попутно еще и на россыпь летних рисерческих программ. Поплакав в подушку, решил, что знания нельзя дать, можно только взять, а значит надо замутить свой ШАД / летнюю школу / рисерческо-падаванское коммьюнити ~~с блекджеком и шлюхами~~. Образовательно-исследовательское сообщество для всех тех "кого не взяли". Будут дедлайны, домашки, а самое главное такие же заинтересованные люди рядышком.

Бекграунд и прочее бла-бла-бла

Всем привет! Меня зовут Андрей. Я почти 10 лет перекладывал джейсоны, а потом словил экзистенциальный кризис и уехал перекатываться в AI рисерч в магистратуру Сколтеха. По прошествии крутейшего года (вот, честно-честно!), где я встретил кучу умнейших заряженных людей и поботал всякого разного машинообучательного, я задумался о планах на следующий год. Темпа снижать не хотелось. Наоборот, быстрее, выше, сильнее, - во славу рокауков и аккураси! Я подался на россыпь разных рисерческих интенсивов, летних школ, стажировок, программ дополнительного образования и... никуда не прошел.

Давайте в деталях:

Меня послали со стажировок и позиций рисерч инженера в Google, Deepmind (тавтология, да?), Nvidia, Apple, Microsoft, Amazon и Meta*, где я немногим ранее успел проработать 3 года. Рефералки не помогли;
Не получилось и стать успешно-успешным квантом в Jane Street, HRT, XTX и прочих организациях, где принято приносить жертвы богу альфы;
Не прошел отбор в MATS и LASR (это такие рисерческие интенсивы по AI alignment);
Завалил собесы в Anthropic и Huawei. Строго говоря, из Huawei мне так и не ответили после тестового, так что, возможно, они его все еще проверяют. Прошло-то всего 3 месяца;
Не попал в ШАД. Второй раз. Ну, тупоооооой, да?

Меня все же взяли на короткую недельную школу M2L, чему я очень и очень рад, но, скажем так, долговременных потребностей в умеренно организованном развитии она не закрывает.

Я уж хотел было зажрать свои горести привычным тазиком мороженого, попутно переваривая и чувство глубокой неудовлетворенности текущим положением дел, как меня посетила мысль. Возможно, светлая. Что если я только сейчас впервые по-настоящему вышел из зоны комфорта в профессиональном плане (в личных переживаниях я уже успел выйти из зоны комфорта, предварительно выйдя из зоны комфорта)? В таком случае я именно там где и надо быть. И если много чего не получается, то вот она и зона роста. А если это зона роста, то все эти фейлы - это возможности.

Итак. Переобуваемся. Это не меня никуда не взяли. Нет. Это я получил возможность построить максимально гибкую программу дальнейшего обучения, попутно вывести самоорганизацию на новый уровень, прокачать скиллы нетворка, и, может, немножечко помочь таким же неприкаянным ребятам, которым чуточку не повезло.

План-капкан

Если не берут в ШАД, то я сделаю свой ШАД. По канону, с блекджеком и шлюхами. А если говорить попроще, то хочется сделать не душную группу для совместного обучения.

Любое обучение держится на трех китах: материалы, коммьюнити и домашки с дедлайнами.

С материалами просто. Многие курсы ШАДа лежат в открытом доступе. По LLM alignment и interpretabillity есть хорошие материалы от ARENA. Есть куча курсов и лекций всех мастей от каждого второго мажорного универа в мире.

С домашками чуточку сложнее. Многие онлайн курсы дают шикарные лекции с оооочень слабыми домашками в виде хиленьких тестов. Впрочем, не все и не всегда. Будем решать проблемы по мере их поступления, и при необходимости придумывать домашки сами или компилировать франкенштейнов из нескольких источников.

С коммьюнити сложнее всего. И, кажется, что это самая важная часть. Временами, я туплю там, где не тупит мой товарищ. Временами, нет настроения, но держит на плаву причастность к какому-то общему делу. В общем, единомышленники - это круто! За ними я сюда и пришел.

Что делаем:

Берем пачку курсов ШАДа и не ШАДа, щедро приправляем их домашками, и начинаем усердно ботать;
С 30 июня начинаем еженедельные встречи. Онлайн в зуме и очно в Лондоне (буду только рад, если кто-то проявит инициативу и организует оффлайн в других городах);
К каждой встрече осваиваем кусочек теории, делаем домашки, и обсуждаем непонятные места;
Делаем кросс-ревью домашек (а кто еще их будет проверять?);
Оставляем после себя заметки с максимально подробными разборами непонятных мест. Оставляем выполненные домашки с комментариями. Я очень хочу, чтобы если бы кто-то ступил на тот же путь после нас, то ему бы не пришлось ломать голову на очередном странном переходе или осточертевшем "очевидно, что".

Что ботаем:

Какой-то курс вышмата, где будет все и про все. Мне он полагался на альтернативном треке в ШАДе. Если гора не идет... Ну вы сами знаете. Еще очень хочется замешать классический линал с божественным Numerical Linear Algebra Оселедца. Я его слушал зимой, но не вынес и половины того, что оттуда вынести можно;
Яндексовый "Учебник по ML". База;
ARENA curriculum. Кайфовейшая подборка по LLM alignment & interpretability;
Легендарная серия Карпатого "Neural Networks: Zero to Hero".

Нет никакой необходимости проходить со мной все курсы. Можно подключиться только к тем, которые интересны. А при желании можно добавить свой курс в программу и затащить организацию. Все держится на общественных началах, и эти начала можно, эм, начать. Vox Populi, Vox Dei?

Что с рисерчем?

Здесь все проще и сложнее. Проще потому что есть лаба в Сколтехе с крутейшим научником. Сложнее потому что хотелось бы и как самому посмотреть на исследовательский процесс построен в других командах с другими людьми, так и помочь другим найти точку приложения исследовательского шила в известном месте. Мы тут коммьюнити делаем или что?!

Попробуем также самоорганизоваться. Во время обучения на первом курсе магистратуры среди своих же однокурсников я встречал не меньше идей и энтузиазма, чем у профессоров и их ассистентов.

Потенциальная проблема видится в том, что будет не так просто собрать команду вокруг какой-то конкретной идеи, т.к. потенциальных направлений куда копать охутриллимиллибиллион. К тому же, в идеале, хотелось бы иметь дяденьку (тетеньку?) с палкой, который будет бить по рукам, если группа начинает грести в какие-то уж совсем беспросветные дебри.

Ничего лучше, чем составить шорт лист интересных профессоров/лаб в городе и начать строчить им емейлы, я пока не придумал.

Уболтал, как залететь?

Та-дам!

Это репа на Github. Там есть или будет:

Ссылочки на лекции/книги и прочие материалы для изучения;
Заметки после обсуждений пройденных тем;
Условия домашек и решения под спойлером;
Ссылочки на чатик (ки?) для координации очных встреч;
Issue на каждый курс, который мы в данный момент разбираем;

Как пользоваться:

Представляемся в треде whois;
Выбираем интересный курс из доступных, подписываемся на оповещения, приходим на созвоны или очные встречи;
Если в списке курсов нет интересного, а очень-очень хочется, то можно сделать свой и так же собрать людей;
Находим подходящую локацию для очного ботанья или организуем свою;
Идеи для рисерча ищем/постим здесь.

Особенности:

Контент хотелось бы по возможности выбирать на английском, чтобы приютить всех отказников вне зависимости от языковых навыков. Однако, во главу будем ставить качество. Другими словами, Яндексовый ML handbook на русском > россыпь курсов на Coursera на английском.

Ура! Вот мы и сделали домик для всех тех, кого никуда не взяли. Покатили теперь его в прод. До встречи на первых созвонах!

Если у вас остались вопросы, есть какие-то предложения, просто хочется голосом пообщаться, то можно подключиться к kick-off встрече (или прийти ножками, если вы сейчас в Лондоне).

* - запрещенная в РФ организация