Всем привет! Меня зовут Валентин Малых, я — руководитель направления NLP-исследований в MTS AI, вот уже 6 лет я читаю курс по NLP. Он проходит на платформе ODS, а также в нескольких университетах. Каждый раз при запуске курса студенты спрашивают меня про книги, которые можно почитать на тему обработки естественного языка. Поскольку я все время отвечаю одно и то же, появилась идея сделать пост про мой список книг, заодно описав их.
Introduction to Information Retrieval
В России книга вышла под названием «Введение в информационный поиск». Как принято писать в таких случаях, «книга сразу стала библиографической редкостью». По крайней мере я ее одалживал у знакомого яндексоида. При этом в книге больше информации про информационный поиск (information retrieval) и меньше про NLP, но в наше время эти две области уже (или все еще) очень близки.
«Введение…» неплохо переведено, хотя я бы сказал, что в оригинале читать полезнее, поскольку вся терминология в нашей области изначально англоязычная. В целом - для первого знакомства с нашей областью эта книга - мой первый кандидат.
Кстати, я с удивлением узнал, что недавно (в 2020) вышло уже третье переиздание на русском языке. Правда, его тоже уже не достать, хотя PDF версия ищется без проблем. Не уверен, что PDF выложен на законных основаниях, поэтому предлагаю поискать книгу самостоятельно.
Foundations of Statistical Natural Language Processing
Насколько мне известно, эта книга не переводилась на русский язык. Тем не менее у нее есть два больших плюса. Первый заключается в том, в книге изложены максимально подробно все базовые вещи.
А второй — это собственно коллектив авторов. Кстати, нужно было это рассказ вставить в описание предыдущей книги, но так как авторы общие, то и здесь это будет уместно. Кристофер Мэннинг — это легенда нашей области, бессменный лидер группы обработки естественного языка (а именно так переводится NLP) в одном из лучших американских университетов, Стэнфордском. Хинрих Шютце — несколько менее известен, но тем не менее тоже один из столпов области, главный по вычислительной лингвистике в одном из лучших уже европейских университетов, университете Людвига-Максимилиана в Мюнхене.
Минус книги в том, что некоторые вещи в ней устарели, да и читать ее достаточно сложно.
Speech and Language Processing
Лично я эту книгу никогда не видел в печатном виде, только в виде PDF-черновиков, в этом виде она пребывает уже много лет. Но это нисколько не делает ее хуже. Она, можно сказать, небольшая (по сравнению с предыдущей), охватывает еще темы обработки речи, которые не напрямую относятся к NLP (хотя это давний спор внутри области). В любом случае, могу ее порекомендовать без колебаний, написана она хорошо, освещает основные темы. Я правда не видел ее в переводе, но может быть я плохо искал. Текущий черновик третьего издания можно найти на странице автора.
Автоматическая обработка текстов на естественном языке и анализ данных.
Большакова Е.И., Воронцов К.В., Ефремова Н.Э., Клышинский Э.С., Лукашевич Н.В., Сапин А.С. Автоматическая обработка текстов на естественном языке и анализ данных. М.: ВШЭ, 2017. К сожалению, у этой книги нет красивой обложки.
Это пожалуй лучшая на сегодняшний день книга на русском языке по нашей области. Книга охватывает основные темы и достаточно понятно написана. Плюс выложена в открытом доступе на сайте ВШЭ. Авторы - звездный состав старшего поколения исследователей, отдельно хочу выделить Константина Вячеславовича Воронцова (главного автора системы тематического моделирования BigARTM) и Наталью Валентиновну Лукашевич (главного автора тезауруса РуТез).
Natural Language Processing. Workbook for NLP Course
Наконец книжка, которую не совсем этично рекомендовать в целом, так она моего авторства, но для студентов моего курса она будет полезна. Это сборник всяких заметок и дополнительных материалов по курсу, который я читаю. Книга находится в глубоко черновом варианте и распространяется между студентами моего курса. Она следует логике курса и дополняет его. Если вы хотите получить доступ к текущему варианту книги, то записывайтесь на мой курс.
Кстати, он стартует уже 14 сентября 2023 года. Курс бесплатный и открытый для всех. Подробности можно посмотреть по ссылке.
Вот такой список получился у меня, само собой неполный и субъективный. Рекомендуйте книги по своему выбору в комментариях, мне тоже будет полезно расширить кругозор.