Чем отличается образование в России, Великобритании и США?
Иногда я пишу посты, в которых нет сильной ML-специфики - например, про менеджмент или свой опыт. Немудрено, что именно за них я получаю больше всего респектов от своих друзей, не особо связанных с DS. Респекты я получать очень люблю, а ещё я люблю писать за жизнь - поэтому иногда тут будут появляться и такие сочинения.
Так уж получилось, что я обучался аж в трёх странах и соответственно в трёх университетах. На самом деле даже такой опыт является очень ограниченным, поэтому, когда меня спрашивают - "ну где же всё-таки лучше учиться?", я всегда даю очень осторожный ответ. Это, однако, не мешает поразмышлять о своих злоключениях, а заодно рассказать о самых интересных и полезных курсах и поделиться книгами и материалами.
Если вы хотите узнать больше об организации процессов ML-разработки, подписывайтесь на наш Телеграм-канал Варим ML
??Россия ??
Классе в десятом я понял, что моя любовь к математике всё-таки имеет свои границы, поэтому матмех резко упал в моём личном рейтинге. Выбор пал на "математические методы в экономике" - звучит прикольно, математика, при этом близко к реальной жизни, и денежками пахнет. Полтора года подготовки к экономфаку СПбГУ разбились об злобного деда, который обнулил мне баллы на вступительном из-за огромных наушников Сенхайзер на шее. Внезапно я оказался в Финэке.
Шёл 2009 год, Финэк на тот момент имел репутацию одного из самых коррумпированных вузов Питера. Мне кажется, в других универах объём купли-продажи экзаменов и зачётов был не сильно меньше, но я действительно повидал на своём веку разные приколы - и прямые взятки, и намёки в духе "вот эта методичка за две тысячи рублей обязательно поможет вам сдать на 5", и экзамены с микронаушниками. В последней схеме я и сам активно участвовал. Сейчас я этим явно не горжусь, но тогда это мне позволяло регулярно посещать бар O'Hooligans и вести неплохую для студента жизнь - спасибо мажорчикам и мажорессам, готовым отвалить по несколько косарей за 45-60 минут моего нечестного интеллектуального труда.
Наша кафедра математематических методов (через пару лет она трансформировалась в прикладную математику) была странным островом спокойствия посреди этого коррумпированного хаоса. Худшее, с чем я встречался за пять лет - это когда сердобольные дяди и дедушки ставили девочкам пятёрки за слёзы на экзах по математике. У меня дико бомбило с таких историй, я даже из принципа бойкотировал сдачи деньги на цветы преподшам перед сессией. Сейчас моё мнение по поводу системы оценок и ранжирования студентов осуществило дрейф куда-то в сторону Эдварда Деминга, но тогда я искренне верил, что оценки - это важно, и ставить их нужно справедливо.
Забавно сейчас это осознавать, но именно тогда был фактически положен старт моей карьере в машинном обучении. Да-да, именно Перепелиное Яичко, Фредман, Усач, Евгений "На́лито" Евгеньич, Баклан, Розочка и другие преподы с нашей кафедры стали моими первыми проводниками в мир DS. Естественно, термины data science и machine learning нигде не звучали, но под различными "математическими методами", "методами исследования операций", "многомерными статистическими методами" скрывалась в том числе база машинки. Диплом в 2013-2014 я писал уже в обнимку с Elements of Statistical Learning: Data Mining, Inference, and Prediction, и там я, кажется, впервые и увидел термин machine learning.
Вспоминать те пять лет можно долго, студенческая жизнь всегда богата на события. Вместо этого попробую подвести некоторые итоги в виде списка плюсов и минусов. В них оказались как общие особенности системы образования в стране, так и нюансы конкретно моего опыта.
??
Вся программа построена за тебя, и нет шанса запороть образование, изучая гончарное дело и искусство викингов. В некоторых вузах типа Вышки элективность присутствовала уже тогда, но масштабно впервые с настолько гибким подходом я столкнулся в США, когда познакомился с русскоязычными ребятами с бакалавариата. Впечатления смешанные.
Наша кафедра - на ней действительно было много интересных предметов и заинтересованных преподов, особенно это было видно на фоне профессоров с других факультетов. Впоследствии я столкнулся с этим и в магистратуре, и на PhD - лучше выбрать менее престижный вуз, но классную кафедру, интересную программу и бодрого научрука.
Рядом Думская.
??
Много лишней фигни. Я согласен, что высшее образование должно развивать человека в разных областях. Скажем, философию или финансовый анализ изучать было и интересно, и полезно. Но был и откровенный мусор с нулевыми преподами. Хорошо ещё, если на бабки не разводили.
Недостаточно гибкости. Обратная сторона фиксированной программы. Даже в рамках одной специальности всегда есть достаточно много разветвлений, и было бы здорово на последних курсах иметь возможность углубиться в определённые темы. Факультативы классно зарекомендовали себя ещё в школе, а тут их фактически не было.
Слабая материальная база - устаревшие компы, разбитые аудитории, отсутствие доступов к электронным библиотекам. Наш завкафедры пытался с этим бороться - к примеру, закупил лицензии на Wolfram Mathematica, но с переменным успехом. Слава Twirpx!
Много слабых преподов - устаревших, скучных, а порой и откровенно глупых и жадных. А кто ещё пойдёт горбатиться за копейки? Только фанаты своего дела. Сейчас в некоторых вузах а-ля ИТМО или ВШЭ дела обстоят получше, но, думаю, что картина поменялась не везде.
Рядом Думская.
Как и обещал, перечисляю курсы, которые больше всего запомнились с тех времён. Материалов с тех лет сохранилось немного, да и качество их страдает, поэтому ссылок пока не будет.
?
Вся математика - линейная алгебра, теория вероятностей, матанализ, теорвер и другие. Сейчас я, конечно, уже помню не так много, было бы здорово найти старые конспекты, которые я с безумным рвением писал перед сессией ручками нескольких цветов. Но это база, без которой было бы очень тяжело начать свой путь в DS, и которая до сих пор помогает мне быстрее разбираться в новых темах, если возникает необходимость. Думаю, одна из проблем большой части выпускников многочисленных DS-курсов - как раз отсутствие такой основы.
Матметоды, методы исследования операций и прочие предметы по специальности - именно на этих парах я впервые узнал о unconstrained и constrained optimization, задачах линейного, нелинейного, целочисленного и бинарного программирования, симплекс-методе, методах variable selection, L1 и L2-регуляризации (привет, гребневая регрессия), Марковских цепях и процессах, методе Монте-Карло.
Теория игр - область математики, которая удивительным образом всплывала повсюду по ходу моей академической карьеры, а сейчас иногда помогает яснее думать и о каких-то процессах реального мира. В магистратуре на behavioral science теория игр появлялась в models of choice и нейроэкономике, ну а для классической political science это вообще основа основ. Конфликты, войны, выборы, рынок труда - теоретический анализ всех противостояний и коопераций основан на теории игр.
Управление качеством - наверное, самое неожиданное включение в рейтинг, но именно на этом предмете я впервые узнал о принципах Lean, семи инструментах контроля качества, диаграмме Исикавы и других небесполезных для менеджера штуках.
??Англия??
В 2014 году мы сложили в кучу подарок от деда, накопления родителей и мой скромный счёт, и парень с Дыбенко отправился покорять Британию. Итоговый выбор стоял между Лондонской школой экономики и University of Warwick. Первое звучало гордо и круто, но Ворвик (Уорик?) подкупил меня мега-интересной с виду программой с загадочным названием Behavioural and Economic Science и потрясающим кампусом как из фильмов - зелень, красивые домики, гуси и лебеди. Гуси эти в брачный период становились жутко агрессивными и регулярно атаковали студентов, но об этом я тогда не знал.
Обычно магистратура в Англии занимает два года, но это был экспериментальный курс - его проводили совместно два факультета (психология и экономика), а программа была рассчитана на год и соответственно была супер-интенсивной. Вот учебный план, который, правда, несколько поменялся с моего времени, но в целом отражает суть происходившего. Достаточно безумный микс из жёсткой эконометрики, поведенческой экономики (в основном те самые Тверски и Канеман, впоследствии ставшие лютым мейнстримом), программирования на R и Матлабе, когнитивной психологии (математическое моделирование восприятия, памяти, внимания и других процессов) и даже нейроэкономики.
Звучит всё это максимально странно, но эта программа и её преподы (особенно со стороны психологического факультета) занимают особое место в моём сердце. Дни и ночи классного рисёча, экспериментов, жёсткой математики, а ещё я впервые потренил ML-модельки на R. А вот так выглядела моя дипломная работа.
А ещё я впервые надолго оказался в интернациональном и очень разнообразном сообществе - и это запустило необратимый процесс моего "отолеращивания", который затем не без трудностей, но продолжится в Нью-Йорке.
??
Интереснейшая программа с междисциплинарным подходом - сплав слегка безумных преподов с психологии и более академичного подхода экономистов сработал очень круто.
Невероятный кампус - наверное, ещё годик, и я бы там конкретно заскучал, всё-таки на кампусе было всего два бара, а ближайший крупный город Бирмингем слегка отвратителен. Но это было действительно уникальное и незабываемое время.
Внеучебная жизнь - досугу и всестороннему развитию студентов в зарубежных вузах уделяется реально много внимания, существует множество клубов и сообществ - дебаты, танго, пиво, футзал, аутизм и многое другое. Я, например, регулярно рубился в футбол и впервые в жизни поиграл на настоящем поле в формате 11 на 11. Не очень понравилось...
??
Недёшево - всё удовольствие вместе с проживанием стоило порядка 20000 фунтов, а ровно посередине учёбы ещё и долбанул жёсткий обвал рубля. В Россию я в итоге возвращался через Киев, рейс был самый дешёвый. Это было спустя два месяца после Боинга, и мама чуть с ума не сошла, когда узнала. Зато было весело - вылет задержали, и я три часа сидел в самолёте, наполовину забитом хасидами, которые направлялись в Умань. В полночь началось празднование ДР одного из пассажиров, и я в честь этого вскрыл бутылочку Лагавулина, купленного на последние деньги.
Консервативность экономической части курса - например, на психологических курсах мы использовали R и Matlab, а на экономе - Stata ? Страшные воспоминания. Хуже в моей жизни был только SPSS.
?
Эконометрика - эконометрика у меня была и в Финэке, но там это было так, одно название. Примерно программу в Ворвике можно оценить по классической книжке Грина. На этих курсах покрывалось очень много важных для будущего DSера вещей. Тут была регрессия со всех сторон и углов (линейные модели и OLS, nonlinear, semiparametric, nonparametric модели), инструментальные переменные, панельные данные, временные ряды, truncated (когда в выборку не попадают наблюдения вне какого-то интервала таргета) и censored модели (когда таргет обрублен - например, все доход выше 100к записан как 100к+), разные виды пропущенных данных, моделирование дискретных переменных. Короче, рекомендую полистать.
Principles of Cognition - биологические, физические и психологические основы процессов восприятия, внимания, краткосрочной и долгосрочной памяти. Здесь я впервые узнал о twin studies, направленных на изучение классического вопроса nature vs nurture - гены или окружение.
Methods and Analysis in Behavioural Science - здесь мы изучали математические модели выбора и памяти, сравнивали разные модели по AIC и BIC, писали agent-based модельки на Матлабе. Почему-то всё это мне казалось крайне захватывающим. Идея математического моделирования когнитивных процессов человека и сейчас вызывает у меня большой интерес.
Нейроэкономика - абсолютно безумный курс, на котором я узнал про использование функционального МРТ для изучения процесса принятия экономических решений и закодил свою первую RL-модельку с мышью в лабиринте. Вот тут бесплатно можно почитать первое издание книжки, по которой мы в основном учились.
??Америка??
Про нью-йоркский период жизни я бы, наверное, мог написать мемуары, но пока ограничимся сферой образования. После года в России я поступил на PhD-программу политического факультета Нью-Йоркского университета. Звучит довольно странно: где политика, а где машинное обучение? Но связь была - при факультете незадолго до этого открылась лаборатория CSMaP по изучению роли социальных сетей в политике. А социальные медиа - это очень много текста. Так я и вкатился в NLP.
Американские PhD-программы отличаются от большинства европейских тем, что за первые два-три года ты параллельно с рисёчем продолжаешь очень активно учиться - посещать лекции, семинары, делать домашки и писать курсовые. Для меня это сыграло и в положительную, и в отрицательную стороны. С разрешения научрука я мог бесплатно посещать все курсы факультета Data Science, но одновременно я был вынужден брать и кучу предметов по Political Science. К сожалению, довольно быстро стало понятно, что это совсем не моё. PhD я в итоге бросил на четвёртом году и вернулся в Россию. В конечном итоге я точно не жалею ни о решении уехать в США, ни о решении вернуться обратно.
Нью-Йорк - сумасшедшее место, он подарил мне как массу приятных воспоминаний, так и немало боли. Я повстречал огромное количество самых разных людей - разных по политическим взлядам, половой идентичности, внешности, расе, ориентации, бэкграунду. В основном это были приятные люди, но иногда и не очень. С кем-то я до сих пор поддерживаю дружеские отношения. В любом случае этот опыт и этот период жизни я бы ни за что ни на что не променял бы. Может быть, какие-то вещи разве что сделал по-другому.
??
Люди - в таком месте ты окружён умнейшими людьми в своей области: профессоры, постдоки, студенты, гостевые лекторы из индустрии. Это даёт неограниченные возможности для обучения и нетворкинга.
Конференции и путешествия - жизнь PhD-студента в США хороша и тем, что можно бесплатно покататься по конференциям. В одной из таких поездок я по уши влюбился в Сиэттл. Обязательно ещё разок там побываю, съем горку начос с крабом, запью местным пивом и почувствую морской дух этого места.
Огромные ресурсы - доступ к суперкомпьютерам с GPU, бюджеты на разметку данных, доступ ко всем платным библиотекам и журналам (до сих пор у меня остался ?). Это действительно сильно облегчает жизнь молодого рисёчера.
Полная стипендия - всё это удовольствие ещё и оплачивалось. 30 тысяч долларов в год - не густо, но жить вполне можно. Мне даже хватало денег на поддержание своего мини-бара - именно в Нью-Йорке я плотно увлёкся миксологией.
??
Обязательные курсы по Political Science - да, странно было бы ожидать, что на факультете PS мне разрешат не заниматься политической наукой, но я явно недооценил объёмы бедствия. Дописывая очередную бесполезную курсовую по националистическим партиям в Европе, я не раз подумывал о том, чтобы всё бросить. Так оно в итоге и случилось.
Разочарование в академии - как помните, ещё со школы мне хотелось, чтоб моя работа имела хотя бы минимальный практический смысл. Я понимаю, что рисёч в науке имеет накопительный эффект, но по моей грубой оценке процентов 80 статей - это мусор, единственная цель которого - публикации и цитирования. Это стало большим ударом по моему желанию продолжать научную карьеру.
?
Machine Learning - офигенный курс, который разложил по полочкам многообразные разрозненные практические знания. Все слайды можно найти здесь. До сих пор под впечатлением от связи L1-регуляризации и Laplacian priors.
Deep Learning - не мог же я упустить возможность прослушать курс у Яна ЛеКуна? Сперва показалось, что как лектор он очень не очень, но, как оказалось, это были в основном трудности перевода - говорит он довольно гнусавым голосом со странным акцентом. Рекомендую полную версию курса к просмотру.
NLP - сам курс мне жутко не понравился, по-моему, ни одну лекцию я не высидел до конца. Зато финальный проект с моим корешем Уиллом был реально классный - нужно было написать и обучить модель по переводу с английского на китайский на Пайторче. Здорово разобрались в энкодерах-декодерах, маскированном лоссе и beam search, а главное научились эффективно вдвоём дебажить сломанные трейн-лупы ?
Ethics in Data Science - я попал на самую первую версию курса, и он был явно сыроват, но всё равно оказалось мега-интересно. Группа подобралась колоритная - несколько дата-саентистов, философы, журналисты, математики. На первых лекциях изучали философские фреймворки справедливости - читали Руссо, Милля и учебники по этике, а затем перешли к практической стороне - приватность данных, дискриминационные предсказания моделей, GDPR. В качестве курсовой работы я провёл этический аудит собственного стартапа.
Quant I, II, III - математический курс от политического факультета в трёх частях. Мне особенно запомнилась третья часть, на которой я впервые руками потрогал байесовский инференс и MCMC через Stan (точнее его байндинги на R и Питоне). Рекомендую книгу Bayesian Data Analysis, а вот слайды с курса.
Social Media and Politics - профильный предмет моей лабы, где мы в основном читали и обсуждали папиры, связанные с социальными сетями. Как оценивать идеологию людей в интернете, как устроены протесты в онлайн-эпоху, как распространяется хейт-спич в соцсетях. Немного устаревший, но интересный список литературы можно найти в учебном плане курса.
Небольшое послесловие
Когда я писал этот пост, пришлось перерыть кучу старых материалов, заметок и фоток. Конечно, в активной памяти остался лишь небольшой процент знаний, а имена большей части людей я уже и позабыл. Но все эти бессонные ночи за курсовыми и статьями, все эти люди привели меня туда, где я есть сейчас. И этому я очень рад.
А некоторые старые материалы уже занёс в список задач, захотелось освежить память
Если вы хотите узнать ещё больше об организации процессов ML-разработки, подписывайтесь на наш Телеграм-канал Варим ML