Большие языковые модели на практике – международный бестселлер теперь на русском языке / Хабр

Книги про большие языковые модели сегодня выходят с той же скоростью, с какой сами эти модели генерируют текст. Зайдите в любой крупный книжный магазин — не важно, в оффлайновый или электронный — и вы увидите широчайший ассортимент названий, где присутствуют GPT, LLM и «искусственный интеллект» в различных сочетаниях. Одни издания — академические монографии для разработчиков, другие — лёгкое чтение для менеджеров, которые хотят «быть в теме». И те, и другие по-своему полезны, но среди них практически отсутствуют книги для практиков, желающих разобраться, как LLM устроены изнутри и как начать использовать их в реальных проектах уже сегодня.

Книга «Большие языковые модели на практике: Понимание языка и генерация текстов» Джея Аламмара и Маартена Гроотендорста как раз закрывает эту лакуну, недаром на Amazonона числится в списке бестселлеров: книга занимает 4-е место в разделах «Natural Language Processing» и «Data Modeling & Design», а также шестое — среди компьютерной литературы в целом (Computer Science). Мы перевели это издание на русский язык, и сейчас подробно расскажем, что скрыто у него под обложкой.

Автора!

Чтобы понять, почему «Большие языковые модели на практике» — книга особенная, нужно сначала понять, кто её написал. А написали ее два очень необычных автора.

Джей Аламмар — имя, которое большинство серьёзных разработчиков в области машинного обучения уже слышали задолго до выхода книги. Его блог с говорящим подзаголовком «Visualizing machine learning one concept at a time» стал чем-то вроде неофициального учебного пособия для целого поколения инженеров. А пост «The Illustrated Transformer» попал в учебные программы MIT, Стэнфорда, Гарварда, Принстона и Carnegie Mellon. Блог Аламмара помог миллионам исследователей и инженеров визуально разобраться в инструментах машинного обучения — от базовых концепций, включенных в документацию NumPy и pandas, до передовых архитектур вроде трансформеров, BERT, GPT-3 и Stable Diffusion.

Это принципиально важный момент. Аламмар не академический теоретик, описывающий модели снаружи — он человек, чьи иллюстрации стали стандартом де-факто для понимания архитектур, которые лежат в основе современных LLM. Когда разработчики по всему миру впервые пытались разобраться, как устроен механизм внимания в трансформере — они, скорее всего, смотрели именно на его схемы. Теперь эти схемы, доработанные и расширенные, составляют костяк книги.

Второй соавтор, Маартен Гроотендорст, пришёл в область машинного обучения неожиданным путём. Он получил три степени магистра — по организационной психологии, клинической психологии и науке о данных — и использует это сочетание для того чтобы разъяснять сложные концепции машинного обучения широкой аудитории. Психологический бэкграунд здесь не случаен: он формирует особое чутьё к тому, как человек воспринимает и усваивает информацию. Гроотендорст — автор нескольких популярных open-source библиотек, опирающихся на языковые модели, в частности BERTopic, PolyFuzz и KeyBERT. Иными словами, он не просто пишет о больших языковых моделях — он строит на их основе инструменты, которыми пользуются другие.

Сочетание получается нетривиальное: визуализатор-практик из индустрии и учёный-психолог, создающий прикладные NLP-инструменты. Всё это объясняет, почему книга «Большие языковые модели на практике» получилась именно такой, какой получилась. Когда текст пишут люди, умеющие объяснять — а не просто знающие предмет, — это чувствуется на каждой странице.

Главная идея книги: «интуиция прежде математики»

Есть стандартный подход к написанию учебника по машинному обучению. Сначала математика, на которую, как на фундамент, опираются технологии ИИ. Потом формулы и — если повезёт — интуитивное объяснение того, что эти формулы означают, и только затем излагаются принципы работы больших языковых моделей. Большинство книг по глубокому обучению построены именно так, и в этом есть своя логика: математика точна, однозначна, не допускает двусмысленности. Проблема в том, что такой порядок изложения работает плохо. Не потому что читатели ленивы или недостаточно подготовлены, а потому что человеческий мозг устроен иначе.

Аламмар и Гроотендорст выстроили книгу вокруг ровно противоположного принципа. Авторы называют его «intution-first approach» — интуиция прежде всего, через визуальное повествование. Математика в книге, конечно, есть, но она следует за разъяснениями, а не предшествует им.

Результат этого выбора — почти 300 оригинальных авторских иллюстраций, созданных специально для книги. Не декоративные картинки на полях и не переработанные схемы из статей. Каждая иллюстрация — это инструмент объяснения, построенный под конкретную концепцию.

Механизм внимания, устройство токенизатора, принцип работы векторных эмбеддингов, архитектура RAG-пайплайна — всё это показывается прежде, чем описывается. Книга выделяется чёткими, хорошо спроектированными диаграммами, которые помогают демистифицировать ключевые концепции и ускоряют обучение.

Для темы LLM такой подход особенно уместен — и это не случайность. Языковые модели полны концепций, которые при словесном описании звучат абсурдно, но немедленно обретают смысл в процессе визуализации. Что значит «слово существует в многомерном пространстве»? Как семантический поиск находит похожее, не сравнивая слова напрямую? Попробуйте объяснить это в трёх абзацах — и читатель вежливо кивнёт, не поняв почти ничего. Покажите на схеме — и концепция обретет смысл за несколько секунд.

Важно понимать, что визуальный стиль здесь — не уступка «для чайников». Книга не упрощает предмет, она меняет порядок его раскрытия. Читатель, который дошёл до конца, понимает трансформерную архитектуру, тонкую настройку и механизмы поиска не хуже, чем если бы продирался через академические статьи, — но добраться до этого понимания с книгой «Большие языковые модели на практике» — значительно быстрее и с куда меньшими потерями по дороге. Способность авторов снабжать сложные концепции кристально чёткими визуальными материалами в конечном итоге и сделала из этой книги мировой бестселлер.

Что внутри: от промптов до файн-тюнинга

Первое, что замечаешь, открыв оглавление — книга не пытается объять необъятное. Новые инструменты, модели и архитектуры появляются чуть ли не каждый месяц, и угнаться за этой эволюцией невозможно, поэтому авторы сделали сознательный выбор: дать читателю не энциклопедию, а дорожную карту. Но зато карту с чётким маршрутом — от самых поверхностных взаимодействий с языковой моделью до понимания того, что происходит у неё внутри.

Маршрут выстроен по принципу нарастающей глубины. Книга разделена на три части, и эта трёхчастная структура — вполне осознанная логика. Авторы сначала объясняют, как устроены модели, затем учат их использовать, и наконец — показывают, как их адаптировать под собственные задачи.

Первая часть объясняет, как это работает. Здесь имеются три главы, каждая из которых отвечает на один фундаментальный вопрос. Первая даёт исторический обзор — от «мешка слов» и word2vec до трансформеров и ChatGPT — и объясняет, что вообще такое языковой ИИ и почему LLM стали переломным моментом в эволюции искусственного интеллекта. Вторая посвящена токенизации и эмбеддингам: как текст превращается в числа, почему разные токенизаторы режут слова по-разному, и что такое эмбеддинг в операциональном смысле. Третья — обновлённая и расширенная версия знаменитого «Иллюстрированного трансформера» Аламмара, который к тому моменту уже несколько лет был стандартным введением в архитектуру для сотен тысяч разработчиков по всему миру. Теперь этот материал вошёл в книгу в расширенном виде, охватывая в том числе современные улучшения архитектуры — механизм Flash Attention, ротационные позиционные эмбеддинги (RoPE), группированное внимание.

Вторая часть учит использовать предобученные модели. Это самый обширный раздел книги — шесть глав, каждая из которых посвящена конкретному классу задач. Классификация текста, кластеризация и тематическое моделирование, промпт-инжиниринг, продвинутые техники генерации текста с LangChain и агентами, семантический поиск и RAG, и — отдельной главой — мультимодальные модели, работающие одновременно с текстом и изображениями. Примечательно, что тематическое моделирование раскрывается через BERTopic — библиотеку, автором которой является сам Гроотендорст. Читатель не просто узнаёт о существовании инструмента: он видит, как устроен инструмент изнутри, из первых рук.

Третья часть посвящена обучению и дообучению моделей. Она ориентирована на тех, кто хочет двигаться дальше простого использования готовых решений. Это уже территория, которую большинство вводных книг по LLM обходят стороной или упоминают вскользь.

Сквозной элемент всех трёх частей — код, открыто доступный в репозитории на GitHub. Авторы предусмотрели запуск всех примеров в Google Colab без локальной установки, что существенно снижает порог входа: не нужна мощная машина с GPU, чтобы начать работать с материалом прямо в процессе чтения.

Для кого эта книга

«Большие языковые модели на практике» — книга для практикующих разработчиков. Не для менеджеров, желающих удачно ввернуть пару-тройку умных терминов на совещаниях. Не для исследователей, которым нужна математическая строгость и побольше теории. Она для тех, кто пишет код — и хочет понять, что именно он запускает. Книга рассчитана на читателей с базовой математической подготовкой и практическим опытом работы с Python. Это реальная нижняя планка: без понимания того, что такое функция, массив и цикл, часть примеров просто повиснет в воздухе.

Зато верхняя планка значительно ниже, чем можно ожидать от книги такого уровня. Глубокого знания математики не требуется — авторы сознательно вынесли её за скобки. Низкий математический порог делает книгу значительно более доступной, вам не нужна линейная алгебра в полном объёме, чтобы понять, почему косинусное сходство работает для семантического поиска. Авторы дают ровно столько математики, сколько необходимо для понимания — не больше.

Особенно комфортно с книгой будут чувствовать себя три категории читателей. Первая — разработчики из смежных областей, которые хотят войти в мир LLM: те, кто работает с компьютерным зрением, бэкенд-разработчики, дата-инженеры. Вторая категория — джуны в области LLM, которым нужна структурированная точка входа, а не бессистемное чтение документации и блогов. Третья — опытные специалисты, которые использовали языковые модели как инструмент, но хотят наконец разобраться в том, как этот инструмент устроен.

Кому книга, скорее всего, не подойдет? Тем, кто ищет академическую глубину. Книга пропускает ряд деталей — в особенности математических. Исследователь, которому нужно понять тонкости обучения с подкреплением или детали архитектурных решений последних моделей, скорее всего, упрётся в потолок раньше, чем ожидает.

Это, пожалуй, один из главных признаков хорошего технического издания: оно точно знает своего читателя. «Большие языковые модели на практике» — не попытка написать универсальную книгу для всех. Это издание для конкретной аудитории, и именно поэтому оно так хорошо попадает в цель.

Если при покупке книги на сайте издательства "БХВ" использовать промокод HABRBHV, вы получите скидку 36%.

Большие языковые модели на практике – международный бестселлер теперь на русском языке

Автора!

Главная идея книги: «интуиция прежде математики»

Что внутри: от промптов до файн-тюнинга

Для кого эта книга

Публикации

Информация