Рождение LLM: история, которую мало кто знает / Хабр

Когда люди слышат "языковая модель", у большинства сразу всплывает ChatGPT, Gemini, ну или на худой конец что-то связанное с Яндексом. Но мало кто задумывается - а с чего вообще всё началось? Кто первым решил, что машина может понимать текст не по шаблону, а по-настоящему?

Я попробую рассказать эту историю без лишнего академизма - просто, но честно.

До нейросетей была статистика

Конец 1980-х. Никаких тебе трансформеров, никакого обучения с подкреплением. Тогда языковые модели строились на банальной статистике - модель просто смотрела, какое слово чаще всего следует за предыдущим. Это называлось n-граммными моделями.

Работало это примерно так: если ты написал "Я хочу есть", модель по статистике предсказывала следующее слово - "пиццу", "суши", "борщ" - в зависимости от того, на каких текстах её обучили. Грубо, примитивно, но это был первый реальный шаг.

Проблема была очевидной - такие модели не понимали контекст дальше двух-трёх слов. Предложение из десяти слов для них уже было тёмным лесом. Плюс они жрали огромное количество памяти: чтобы хранить статистику для всех возможных троек слов в большом корпусе текстов, нужны были гигабайты - по тем временам это было реально больно.

IBM и первые попытки сделать что-то умнее

В начале 90-х в IBM Research работала группа людей, которые всерьёз занялись машинным переводом. Они создали модели под названием IBM Model 1-5 - и это был уже другой уровень. Модели учились находить соответствия между словами в разных языках, опираясь на большие корпуса параллельных текстов.

Параллельно в AT&T Bell Labs Ян Лекун со своей командой возился с нейронными сетями. Тогда это выглядело как академическая экзотика, на которую никто особо не ставил. Финансирование резали, скептики говорили что это тупик. Период с конца 80-х по середину 90-х в ML-сообществе вообще называют "зимой ИИ" - интерес и деньги ушли, большинство исследователей переключились на другие задачи.

Но именно эти два направления - статистика и нейросети - в итоге и слились в то, что мы сегодня называем LLM.

2003 год - момент, который все пропустили

В 2003 году Йошуа Бенджио с коллегами опубликовал работу "A Neural Probabilistic Language Model". Это была та самая точка, после которой всё начало меняться.

Они предложили не просто считать частоту слов, а обучать нейросеть предсказывать слово по контексту. Причём каждое слово превращалось в вектор - числовое представление в многомерном пространстве. Слова с похожим смыслом оказывались "рядом" в этом пространстве.

Тогда это называлось word embeddings - и именно отсюда растут ноги у всего современного NLP.

Статью прочитали немногие. Никакого хайпа не было. Просто тихая, важная работа. На конференции NeurIPS того года её встретили вежливым интересом - не более. Бенджио потом говорил, что они сами не до конца понимали, что сделали.

Word2Vec - когда мир начал замечать

2013 год. Команда Google во главе с Томасом Миколовым выпускает Word2Vec - и вот тут уже народ начинает реально удивляться.

Модель умела делать вещи, от которых у людей ехала крыша:

"король" - "мужчина" + "женщина" = "королева"

Не потому что кто-то это запрограммировал. Модель сама вывела эту логику из текстов. Причём это работало для десятков таких аналогий - страны и столицы, профессии и инструменты, глаголы и их формы. Модель захватила структуру языка просто через предсказание соседних слов.

Это был момент, когда стало понятно - что-то в этом направлении реально работает. Именно тогда в сторону NLP начали смотреть большие компании с большими бюджетами.

ELMo и контекст, которого так не хватало

2018 год, чуть раньше GPT. Команда AllenNLP выпускает ELMo - и решает проблему, которую Word2Vec так и не смог закрыть.

В Word2Vec слово "ключ" всегда имело один вектор - неважно, речь про ключ от квартиры или ключ в музыке. ELMo впервые сделал так, чтобы представление слова зависело от контекста, в котором оно стоит. Это звучит как мелочь, но на практике это был огромный скачок в качестве.

Модель читала предложение в обоих направлениях - слева направо и справа налево - и собирала контекст с обеих сторон. Отсюда и название: ELMo - Embeddings from Language Models.

Трансформер - тот самый перелом

2017 год. Google Brain публикует статью "Attention Is All You Need". Именно здесь рождается архитектура трансформера - основа всех современных LLM.

До этого нейросети читали текст последовательно - слово за словом. Трансформер отказался от этой идеи. Он смотрит на весь текст сразу и учится понимать, какие слова связаны друг с другом по смыслу - независимо от того, насколько далеко они стоят в предложении.

Механизм назвали "attention" - внимание. Модель буквально учится "обращать внимание" на нужные части текста. Грубо говоря: читая слово "он" в конце длинного абзаца, модель понимает, что "он" - это конкретный человек, упомянутый десять предложений назад.

Плюс трансформер считается параллельно - в отличие от рекуррентных сетей, которые были до него. Это значит, что его можно эффективно обучать на GPU. Именно это открыло дорогу к масштабированию.

И вот тут всё понеслось.

GPT-1 - первая настоящая LLM

2018 год. OpenAI выпускает GPT-1 - Generative Pre-trained Transformer. 117 миллионов параметров. Обучена на книгах из открытого интернета.

По современным меркам - смешной размер. Но по тем временам это был прорыв. Модель умела генерировать связный текст, отвечать на вопросы и переключаться между задачами без отдельного обучения под каждую. Это называлось "few-shot learning" - ты просто давал модели пару примеров прямо в запросе, и она понимала, что от неё хотят.

GPT-2 в 2019-м OpenAI поначалу отказались публиковать полностью - сказали, что модель "слишком опасна". Сейчас это выглядит смешно, но тогда 1.5 миллиарда параметров казались чем-то запредельным. GPT-3 в 2020-м - уже 175 миллиардов. А дальше - всем известный ChatGPT в конце 2022 года и то, что последовало за ним.

Но корни - вот здесь, в этой цепочке от статистики 80-х до трансформера 2017 года.

Сейчас LLM уже не просто генерируют текст. Они встроены в рабочие инструменты, приложения, голосовые помощники. Модели читают картинки, слушают голос, пишут код. Порог входа для обычного пользователя упал до нуля.

Если хочешь попробовать несколько топовых моделей в одном месте - есть бесплатный Telegram-бот, который я использую сам. Там собраны лучшие модели, без ограничений на количество сообщений и без подписок. Можно переключаться между режимами Fast и Thinking - смотря какая задача. Настроить скиллы, выбрать роль для бота. Он распознаёт текст с фото, описывает изображения, решает задания по картинке, транскрибирует голосовые в текст - и сам принимает голосовые промпты. Всё в одном месте.

Вместо вывода

История LLM - это не история одного гения и одного открытия. Это лет сорок тихой работы десятков команд, которые делали своё дело, пока никто не смотрел. Статистики, лингвисты, математики, инженеры - все они по чуть-чуть складывали этот пазл.

Бенджио, Хинтон и Лекун в 2018-м получили премию Тьюринга - что-то вроде нобелевки в компьютерных науках. Журналисты тогда написали про это пару строчек и забыли. А через четыре года весь мир узнал, что такое ChatGPT.

В какой-то момент пазл сложился. Теперь мы все пользуемся результатом - зачастую даже не задумываясь, откуда это всё взялось.