Большие языковые модели (LLM) звучат впечатляюще, но всегда ли нужно их использовать? Разберемся, в каких случаях стоит использовать LLM, а когда использование малых языковых моделей (SLM) окажется более разумным и экономичным решением без потери качества.
В последние годы технологии искусственного интеллекта и обработки естественного языка (NLP) уверенно вошли в бизнес-практику. Их используют повсеместно — от анализа поведения клиентов до поддержки пользователей с помощью чат-ботов, автоматизированного маркетинга и многого другого.
Особенно хорошо для таких задач зарекомендовали себя большие языковые модели (LLM). Однако, как только компании начали внедрять LLM в реальные продукты, вскрылись и проблемы:
LLM от ведущих провайдеров обладают общими знаниями, но им не хватает специализации, которая чрезвычайно полезна во многих сценариях.
Дообучение LLM под специфику отрасли или языка чрезвычайно дорого с вычислительной точки зрения.
Использование таких моделей в продакшене обходится недешево: либо из-за требований к инфраструктуре, либо из-за стоимости токенов.
Один из способов справиться с этими ограничениями — использовать малые языковые модели (SLM). Разберем, в чем сильные и слабые стороны LLM и SLM, и где каждая из них может быть полезной бизнесу.
Малые языковые модели (SLM)

К малым языковым моделям относятся, например, Phi 3, Mistral Small, LLaMA 3 8B, Gemma и другие. Эти модели отличаются компактной архитектурой и высокой эффективностью. Обычно их создают методом «дистилляции» — когда большая модель обучает меньшую повторять свои действия.
У таких моделей существенно меньше параметров, чем у LLM, поэтому они быстрее работают и меньше требуют ресурсов. Благодаря этому их можно запускать даже на устройствах с ограниченными вычислительными возможностями — например, в IoT-среде.
Преимущества SLM:
Высокая эффективность и скорость. Благодаря своему меньшему размеру, SLM могут быть более эффективными и быстрыми в работе. Их можно развертывать на локальных машинах или менее мощном оборудовании, что делает их подходящими для сред с ограниченными ресурсами, например, IoT. Также благодаря этому создается более бесшовный опыт для конечного пользователя за счет скорости ответа системы.
Специализация по областям знаний. SLM легко адаптируются под конкретную сферу: юриспруденция, медицина, производство. Они обучаются на отраслевых данных и уверенно справляются со специализированными задачами.
Доступность. Требуют меньше вычислительных ресурсов — как для обучения, так и для запуска. Это снижает издержки и делает их удобными даже для стартапов и небольших компаний.
Возможности тонкой настройки. Их проще дообучать под конкретные задачи даже при ограниченной инфраструктуре. Это дает возможность создавать узкоспециализированные решения без гигантских вложений.
Сниженный риск предвзятости. Поскольку SLM обучаются на тщательно отобранных и специфичных для области наборах данных, риск предвзятости естественным образом ниже по сравнению с LLM. Данные могут быть более тщательно контролируемыми и проверенными, что потенциально снижает вероятность унаследованных предвзятостей.
Недостатки SLM:
Ограниченная универсальность. SLM хорошо справляются с задачами в своих доменах, но за их пределами становятся менее эффективными.
Зависимость от качества данных. Если обучающие данные плохие, модель начнет ошибаться. А в случае SLM это особенно чувствительно: даже немного «шумные» примеры могут сильно ухудшить работу.
Узкая база знаний. SLM не обладают широким пониманием языка и мира вокруг нас. Это плохо в задачах, требующих более глубокого понимания различных тем и доменов.
Потенциальная предвзятость в конкретных доменах. Даже при хорошей выборке SLM могут «унаследовать» предвзятости, если они присутствуют в исходных данных.
Большие языковые модели (LLM)

К LLM относятся GPT-4o, Claude Sonnet, Command R+, Google Gemini и другие. Эти модели — тяжеловесы с миллиардами параметров, обученные на гигантских массивах данных. У них широкий кругозор, они способны решать сложные задачи и писать тексты, неотличимые от человеческих.
Чаще всего такие модели создаются крупными корпорациями. Более того, часто они не предоставляются для развертывания в контуре предприятия, оставаясь доступными только через API.
Преимущества LLM:
Универсальность. LLM могут справляться с задачами самого разного типа без специальной донастройки, что делает их адаптируемыми к различным приложениям. Их способность понимать и генерировать текст на основе контекста позволяет создавать связные и релевантные ответы по различным темам. Более того, это позволяет упростить ИИ-архитектуру, полагаясь на одну модель в массе сценариев использования, и избегая необходимости разворачивать несколько моделей.
Глубокое понимание языка. Из-за широты и разнообразия обучающих данных такие модели «чувствуют язык», структуру текста и общий контекст. Это помогает им решать сложные языковые задачи.
Генеративные возможности. LLM превосходно справляются с созданием креативного контента, такого как рассказы, стихи или компьютерный код.
Возможности дообучения. LLM могут быть дообучены для выполнения конкретных задач или работы в определенных доменах, предлагая адаптированные ответы, которые могут быть более точными или специфичными для домена, что полезно для специализированных приложений.
Недостатки LLM:
Ресурсоемкость. Их нужно обучать и запускать на дорогом оборудовании с мощными GPU и большим объемом памяти. В большинстве случаев их нельзя развернуть локально — только использовать через API.
Проблемы предвзятости и справедливости. LLM учатся на «всем интернете», где много предвзятых или устаревших данных. Из-за этого они могут непреднамеренно воспроизводить стереотипы.
Чувствительность к вводу. LLM очень чувствительны к получаемому вводу, так называемым промптам. Небольшое изменение во входной фразе — и результат может быть совсем другим, что может повлиять на согласованность и предсказуемость их ответов.
Отсутствие глубокого понимания. Несмотря на обширные знания и языковые возможности, LLM не обладают истинным пониманием мира, особенно в специфических, профессиональных темах.
Выбор подходящей модели для бизнеса
Итак, сравним большие и малые модели по основным критериям:
SLM (малые модели) | LLM (большие модели) | |
Назначение | Узкоспециализированные задачи | Универсальные задачи |
Ресурсы | Низкие требования | Высокие требования |
Обучение | Быстрое и дешевое | Дорогостоящее и длительное |
Развертывание | Можно локально | Чаще через API |
Понимание | Ограничено доменом | Глубокое и общее |
Читая таблицу, можно решить, что малые модели уже побеждают большие, а громкие названия — лишь пережиток прошлого. Но на практике все не так однозначно.
SLM — отличный выбор, если нужно точное решение под конкретную задачу и есть ограничения по бюджету. LLM — более универсальный инструмент, подходящий для широкого спектра приложений, если позволяют ресурсы.
Когда выбирать SLM:
Нужно точное решение в узкой области — например, в здравоохранении или промышленности.
Требуется быстрое и дешевое развертывание.
Вы можете предоставить качественные обучающие данные под узкий домен.
Когда выбирать LLM:
Предстоит работать с разными задачами, и вы не хотите заранее ограничивать себя.
Хотите упростить архитектуру — одна модель, много сценариев.
Нужно решать задачи, требующие сложных рассуждений и генерации текста высокого качества.
Есть ресурсы для использования API или собственной инфраструктуры.
Автор: Хайтович Максим Константинович — генеральный директор SoL Lab, эксперт онлайн-магистратур МФТИ, Центр «Пуск»