Открытый курс «Deep Learning in NLP» от создателей DeepPavlov на базе курса cs224n

    Всем привет!
    Если возник вопрос по курсу — посмотрите раздел Q&A ниже.


    Вступление


    Меня зовут Алексей Клоков, я хочу рассказать о запуске классного курса по обработке естественного языка (Natural Language Processing), который очередной раз запускают физтехи из проекта DeepPavlov – открытой библиотеки для разговорного искусственного интеллекта, которую разрабатывают в лаборатории нейронных систем и глубокого обучения МФТИ. Благодарю их и Moryshka за разрешение осветить эту тему на Хабре в нашем ods-блоге. Итак, поехали!


    image
    Рисунок 1. Лого DeepPavlov


    Кратко


    C 11-го февраля 2020 года стартует открытый и бесплатный курс «Deep Learning in NLP».
    Курс поможет Вам разобраться в NLP от самого начала до современного состояния. Вы получите фундаментальные знания, с помощью которых сможете решать задачи, связанные с обработкой текстовой информации. После Вы сможете продвигаться дальше в этой теме (NLP постоянно развивается), сможете читать и понимать умные папирусы на архиве. Ну, как бонус, вы сможете понять, при чем здесь вообще "Улица Сезам". Основа курса — cs224n Стенфорда, который является одним из лучших по NLP (см. лекции 2019 года). Все разборы лекций и дополнительные полезные “ништяки” на семинарах будут на русском языке!


    image
    Рисунок 2. Элмо и GPU — лучшие друзья


    Курс требует общего понимания работы алгоритмов машинного обучения, в частности, нейросетей. Важно умение программировать на python. Начальные знания библиотек глубокого обучения tensorflow или pytorch приветствуются.


    Подробно


    Каждый запуск уникален, но основной набор тем следующий (советую еще посмотреть темы стенфордского курса этого года тут):


    1. Представления слов в многомерном пространстве (Word embeddings: w2v, fasttext и GloVe)
    2. Нейронные сети прямого распространения (FFNN, backprop)
    3. Рекуррентные и свёрточные сети в NLP (Language Modeling: RNN. И немного про CNN)
    4. Transfer learning (ELMo, ULMFiT)
    5. Механизм внимания на примере задачи нейронного машинного перевода (Attention, seq2seq на примере NMT)
    6. Архитектура трансформера (Self-Attention, Transformer)
    7. BERT
    8. Next steps: GANs in NLP и др.

    Вести курс сейчас будут сотрудники лаборатории нейронных систем и глубокого обучения МФТИ Алексей Сорокин (тг @alexeysorokin89) и Василий Коновалов (тг @letmypeoplego).


    Семинары будут проходить в учебном центре 1С по адресу: г. Москва, Дмитровское шоссе, д.9 (метро "Тимирязевская"), аудитория 9235 (2 этаж).
    Дата проведения первого семинара: 11.02.2019, 19:00.


    Общий формат курса — inverted classroom. Включает в себя самостоятельный просмотр лекций стенфорда, выполнения тестиков, хождения/просмотра записей семинаров на Youtube, выполнения объемных домашних работ, обсуждение с другими ботающими, финальный проект. Далее подробно про каждый из аспектов:


    • Подготовка к семинарам. Перед каждым семинаром нужно посмотреть определенные лекции cs224n по roadmap. Далее нужно выполнить квиз по прослушанному материалу (советую несколько раз прослушать и разобраться). Приходить на семинар лучше подготовленными. Семинары проходят 1 раз в неделю. Внимание! Уже нужно посмотреть лекции >>1<<, >>2<< и сделать квиз к первому семинару!
    • Семинары. На семинарах происходит обсуждение материала, который Вы ботали дома. Семинарист ответит на вопросы, разберет некоторые фундаментальные вещи еще раз и может быть разберет вопросы из теста. Общаться вживую — очень полезно. В предыдущих запусках курса после выкладывались записи на Youtube, сейчас мб зарелизят и онлайн трансляции. Семинары для меня были супер полезные (пример – transfer learning).
    • Задания с кодом — воркшопы. Задания объемные, в этом плане курс похож на cs231n. Реализуете руками w2v, backprop в RNN и много другого интересного. В предыдущий запуск весной 2019 года был запущен телеграм-бот для проверки заданий в кооперации (peer-reviewed). Т.е. Вы будете смотреть чужой код, а кто-то другой – ваш.
    • Проекты. Курс дает возможность почувствовать себя исследователем (модное слово NLP-Researcher). Каждый участник должен сделать свой проект. Проект можно делать и в команде. В cs224n дефолтный проект — Question Answering. В нем дают бейзлайн для SQuAD 2.0, требуется его улучшить. Также в прошлый запуск предлагались другие возможные темы проектов от лаборатории. Более того, организаторы всегда шли навстречу и разрешали выбрать свой проект не из их списка. В итоге, получилось много интересных проектов форме постеров.
    • Соревнования. Также был inclass competition и в рамках курса – классификация новостей.

    Важные ссылки


    1. Регистрация на курс: https://forms.gle/1mz9rzoFdf2Von9L7
    2. За вопросами на форум
    3. Основная площадка — Telegram. Объявления и орг. информация тут: https://t.me/dlinnlp2020spring; чат чисто весеннего потока 2020 тут: https://t.me/joinchat/HdGuOk3LL4J3iDqj8x0i6g
    4. Юра yorko создал репозиторий с roadmap курса (пока ребята пилят отдельную страничку на своем сайте, …пилят же?) https://github.com/Yorko/dl_in_nlp_deeppavlov_cs224n_spring2020
    5. Общий чат всех предыдущих запусков, где сидят уже 800+ человек (так сказать, залетайте): https://t.me/dlinnlp_discuss

    Q & A


    1. Где официальный road map? — пока его нет. Только тут. Важно следить за официальными объявлениями тут.
    2. Сколько продлится курс? — примерно до мая.
    3. Смогу ли я проходить курс, если я не из Москвы? — да, сможете. Для этого и выкладываются записи семинаров.
    4. Если гугл форма для регистрации уже закрыта, как записаться на курс? — нужно написать в тг (moryshka). Заявки будут приниматься до 19:00 11 февраля.
    5. Гугл форма для первого (или др.) квиза закрылась, что делать? — ничего страшного, вы сможете проявить себя в следующих квизах и в финальном проекте. Всем успехов!

    ODS


    Курс стартует при поддержке OpenDataScience, под эгидой которого уже сформировались 2 мощнейших русскоязычных курса по ML и по DL. Приглашаем всех интересующихся DS в огромное (~41к участников) русскоязычное (и не только) сообщество. Доступ в ODS дается по инвайтам после подачи заявки на главной странице с небольшим вступительным тестом. Подаете заявку и скачиваете приложение Slack. Далее ждете письма на почту с приглашением в workspace_ods. Неофициальные обсуждения вопросов по курсу «DL in NLP» будут проходить в канале #class_cs224n Slack.


    Отдельная благодарность


    Хочу сказать огромное спасибо Владу Лялину. Этот человек тащил на себе не один запуск курса, вложил уйму времени как в семинары, так и в создание телеграм-бота для упрощения проверки заданий. Сейчас он делает PhD в University of Massachusetts Lowell и стажируется в Google. Пожелаем ему удачи и будем держать за него кулачки. Влад – тащи.


    image
    Рисунок 3. Фото c семинара по RNN


    Заключение


    От лица сообщества ods.ai посмею заявить, что это максимально топ курс, в который стоит ворваться, пока есть возможность. Агитация и пропаганда курса только приветствуется.


    Закончить эту статью я бы хотел строчками:


    “Да разнесется науки свет по всей земле из Долгопрудной”

    Open Data Science
    Крупнейшее русскоязычное Data Science сообщество
    AdBlock похитил этот баннер, но баннеры не зубы — отрастут

    Подробнее
    Реклама

    Комментарии 6

      +1
      Я верно понял, что удалённые форматы не предусмотрены? То есть не-москвичи пролетают?
        +2
        Организаторы говорили, что будут выкладывать записи семинаров. Может быть будут прямые трансляции. Поэтому не расстраивайтесь.
        +1
        А где будут выкладываться записи? Хотелось бы подписаться сразу чтобы это не прошло мимо…
        +1
        Как подготовиться к следующему набору?
          0
          Это зависит от Ваших знаний.
          Разобраться с ml, nn. Поупражняться на задачах cv, используя pytorch

        Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

        Самое читаемое