Статьи / Профиль madrugado / Хабр

Валентин Малых @madrugado

AI / NLP Researcher

Профиль Публикации 17Комментарии 53Закладки 5

madrugado 6 сен 2023 в 16:00

Пять книг про NLP, с которых можно начать

Простой

3 мин

16K

Блог компании Open Data ScienceБлог компании MTS AIБлог компании МТСПрофессиональная литература*Natural Language Processing*

Обзор

Всем привет! Меня зовут Валентин Малых, я — руководитель направления NLP-исследований в MTS AI, вот уже 6 лет я читаю курс по NLP. Он проходит на платформе ODS, а также в нескольких университетах. Каждый раз при запуске курса студенты спрашивают меня про книги, которые можно почитать на тему обработки естественного языка. Поскольку я все время отвечаю одно и то же, появилась идея сделать пост про мой список книг, заодно описав их.

+13

madrugado 12 сен 2022 в 16:00

Новый запуск курса Natural Language Processing

2 мин

6.6K

Блог компании Open Data ScienceМашинное обучение*Искусственный интеллектNatural Language Processing*

Уже в среду мы делаем новый запуск курса по обработке естественного языка от ODS и Huawei. Ссылка на курс вот. В этом запуске дополнительно расскажу про то, как устроены Github Copilot и OpenAI Codex, ну и в целом про NLP4Code.

+13

madrugado 9 фев 2022 в 14:18

Новый запуск курса Natural Language Processing

2 мин

5.4K

Блог компании Open Data ScienceМашинное обучение*Искусственный интеллектNatural Language Processing*

TL;DR: Этой осенью сообщество Open Data Science и компания Huawei делают новый запуск курса по обработке естественного языка. Страница курса вот. Первая лекция - в среду, 14 сентября.

madrugado 17 сен 2021 в 17:37

Новый запуск курса Natural Language Processing

2 мин

8.2K

Блог компании Open Data ScienceБлог компании HuaweiМашинное обучение*Искусственный интеллектNatural Language Processing*

TL;DR: Этой осенью сообщество Open Data Science и компания Huawei делают новый запуск курса. Регистрироваться на сайте ODS.ai

посмотреть, что внутри

+10

madrugado 15 апр 2020 в 15:28

Машинный перевод. От Холодной войны до наших дней

6 мин

Блог компании HuaweiData Mining*Natural Language Processing*Искусственный интеллектМашинное обучение*

Машинный перевод в последние годы получил очень широкое распространение. Наверняка, большинство моих читателей хоть раз пользовались сервисами Google.Translate или Яндекс.Перевод. Также вероятно, что многие помнят, что не так уж и давно, лет 5 назад пользоваться автоматическими переводчиками было очень непросто. Непросто в том смысле, что они выдавали перевод очень низкого качества. Под катом краткая и неполная история машинного перевода, из которой будет виден в этой задаче и некоторые его причины и последствия. А для начала картинка, которая показывает важную концепцию относительно машинного перевода:

Читать дальше →

madrugado 2 мар 2020 в 16:35

Курс Natural Language Processing (обработка естественного языка)

2 мин

11K

Блог компании HuaweiData Mining*Natural Language Processing*Искусственный интеллектМашинное обучение*

Всем привет!

UPD. 04.03.2020: Удалось договориться о записи лекций. Для первой лекции будет организована трансляция.

Huawei Russian Research Institute (Huawei RRI) в рамках программы взаимодействия с ведущими российскими университетами (МФТИ, МГУ, МГТУ им. Н. Э. Баумана) представляет открытый курс “Natural Language Processing” или “Обработка естественного языка”, который пройдет на площадке московского корпуса Физтеха.

Читать дальше →

+11

madrugado 11 фев 2020 в 17:04

Natural Language Processing. Итоги 2019 и тренды на 2020

5 мин

8.6K

Блог компании HuaweiData Mining*Natural Language Processing*Искусственный интеллектМашинное обучение*

Всем привет. С некоторым запозданием я решил опубликовать эту статью. Каждый год я стараюсь подвести итоги произошедшего в области обработки естественного языка (natural language processing). Не стал исключением и этот год.

BERTs, BERTs are everywhere

Начнем по порядку. Если вы не уехали в глухую Сибирскую тайгу или отпуск на Гоа на последние полтора года, то вы наверняка слышали слово BERT. Появившись в самом конце 2018-ого за прошедшее время эта модель завоевала такую популярность, что в самый раз будет вот такая картинка:

+32

madrugado 10 апр 2018 в 14:00

Применение сверточных нейронных сетей для задач NLP

9 мин

63K

Блог компании Open Data ScienceData Mining*Natural Language Processing*Python*Машинное обучение*

Когда мы слышим о сверточных нейронных сетях (CNN), мы обычно думаем о компьютерном зрении. CNN лежали в основе прорывов в классификации изображений — знаменитый AlexNet, победитель соревнования ImageNet в 2012 году, с которого начался бум интереса к этой теме. С тех пор сверточные сети достигли большого успеха в распознавании изображений, в силу того факта, что они устроены наподобие зрительной коры головного мозга — то есть умеют концентрироваться на небольшой области и выделять в ней важные особенности. Но, как оказалось, CNN хороши не только для этого, но и для задач обработки естественного языка (Natural Language Processing, NLP). Более того, в недавно вышедшей статье [1] от коллектива авторов из Intel и Carnegie-Mellon University, утверждается, что они подходят для этого даже лучше RNN, которые безраздельно властвовали областью на протяжении последних лет.

Сверточные нейронные сети

Для начала немного теории. Что такое свертка? Мы не будем на этом останавливаться подробно, так как про это написана уже тонна материалов, но все-таки кратко пробежаться стоит. Есть красивая визуализация от Стэнфорда, которая позволяет ухватить суть:

Источник

Читать дальше →

+67

madrugado 26 янв 2018 в 13:58

Главные достижения в области обработки естественного языка в 2017 году

10 мин

21K

Блог компании Open Data ScienceБлог компании Московский физико-технический институт (МФТИ)Data Mining*Математика*Машинное обучение*

Перевод

Всем привет. Сразу поделим аудиторию на две части — тех, кто любит смотреть видео, и тех, кто, как я, лучше воспринимает тексты. Чтобы не томить первых, запись моего выступления на Дата-Ёлке:

Там есть все основные моменты, но формат выступления не предполагает подробного рассмотрения статей. Любители ссылок и подробных разборов, добро пожаловать под кат.

Читать дальше →

+61

madrugado 17 июл 2017 в 14:03

Чудесный мир Word Embeddings: какие они бывают и зачем нужны?

19 мин

140K

Блог компании Open Data ScienceData Mining*Python*Машинное обучение*Поисковые технологии*

Начать стоит от печки, то есть с постановки задачи. Откуда берется сама задача word embedding?
Лирическое отступление: К сожалению, русскоязычное сообщество еще не выработало единого термина для этого понятия, поэтому мы будем использовать англоязычный.
Сам по себе embedding — это сопоставление произвольной сущности (например, узла в графе или кусочка картинки) некоторому вектору.

Читать дальше →

+36

madrugado 5 июн 2017 в 14:26

Что такое диалоговые системы, или Кое-что об Элизе

4 мин

14K

Блог компании Московский физико-технический институт (МФТИ)Data Mining*Машинное обучение*Ненормальное программирование*Мессенджеры*

Диалоговые системы давно и прочно вошли в нашу жизнь. В заглавии упомянута и на картинке представлена ELIZA — диалоговая система-психоаналитик (сейчас, ее назвали бы чат-бот), родом из 60-ых годов. Если вам интересно, как человек дошел до общения с ботами-психоаналитиками и что еще есть интересного в диалоговых системах, добро пожаловать под кат.

Читать дальше →

+12

madrugado 20 апр 2017 в 14:09

Библиотеки для глубокого обучения: Keras

13 мин

172K

Блог компании Open Data ScienceData Mining*Python*Математика*Машинное обучение*

Привет, Хабр! Мы уже говорили про Theano и Tensorflow (а также много про что еще), а сегодня сегодня пришло время поговорить про Keras.

Изначально Keras вырос как удобная надстройка над Theano. Отсюда и его греческое имя — κέρας, что значит "рог" по-гречески, что, в свою очередь, является отсылкой к Одиссее Гомера. Хотя, с тех пор утекло много воды, и Keras стал сначала поддерживать Tensorflow, а потом и вовсе стал его частью. Впрочем, наш рассказ будет посвящен не сложной судьбе этого фреймворка, а его возможностям. Если вам интересно, добро пожаловать под кат.

Читать дальше →

+55

madrugado 22 фев 2017 в 15:09

Обучение с подкреплением: от Павлова до игровых автоматов

9 мин

13K

Машинное обучение*

История обучения с подкреплением в зависимости от того, как считать насчитывает от полутора веков до 60 лет. Последняя волна (которая захлестывает сейчас нас всех) началась вместе с подъемом всего машинного обучения в середине 90-ых годов 20-ого века. Но люди, которые сейчас на гребне этой волны начинали само собой не сейчас, а во время предыдущего всплеска интереса — в 80-ых. В процессе знакомства с историей нам встретятся многие персонажи, который сыграли роль в становлении учения об искусственном интеллекте (которое мы обсуждали в прошлой статье). Само собой, это неудивительно, ведь обучение с подкреплением — его неотъемлемая часть. Хотя обо всем по порядку.

Само название “обучение с подкреплением” взято из работ известного русского физиолога, нобелевского лауреата Ивана Петровича Павлова. В 1923 вышел его труд “Двадцатилетний опыт объективного изучения высшей нервной деятельности (поведения) животных” [1], известный на западе как Conditional Reflexes [2]. Но психологические подходы были известны и ранее.

Читать дальше →

+15

madrugado 29 дек 2016 в 16:03

Почему этой зимой мы снова приглашаем всех поиграть в компьютерные игры при помощи искусственного интеллекта

6 мин

14K

Блог компании Московский физико-технический институт (МФТИ)GPGPU*Машинное обучение*Ненормальное программирование*Спортивное программирование*

Хабр, МФТИ приветствует тебя! Как истинные технари, сразу переходим к делу и приглашаем всех, кому интересно, принять участие в новом хакатоне DeepHack, который пройдет на Физтехе с 6 по 12 февраля. Отборочный этап уже начался и продлится до 22 января. Это мы всё к чему… Если вы не понаслышке знаете, что такое DQN, deep RL и DeepHack сразу регистрируйтесь на очередную научную школу-хакатон — rl.deephack.me.

А если вы не до конца в теме и вам, например, не ясно, почему компьютерные игры, какое отношение они имеют к управлению дата-центрами и что на самом деле будет в феврале, то срочно идите под кат — там максимальное погружение в жизнь искусственного интеллекта от древности и до наших дней. Ну вы же не думаете, что всё это изобрели только в XXI веке?

Читать дальше →

+27