Комментарии / Профиль obulygin / Хабр

Олег Булыгин@obulygin

Data Science & ML Expert | EdTech Consultant

Рейтинг

Подписчики

Хабр Карьера Хабр Эксперты

ПрофильСтатьи1ПостыНовости1Комментарии5

Почему ваш LLM-сервис ведёт себя как хочет, а не как вы просите

obulygin 27 апр в 02:38

Все верно. И достичь исключительно через промпт 100% надежности пока невозможно.

Почему ваш LLM-сервис ведёт себя как хочет, а не как вы просите

obulygin 23 апр в 17:27

Готов поспорить буквально с каждой фразой в вашем комментарии.

1) Промпт-инъекции, каскадные ошибки в логике и галлюцинации - это не баги "дешевых" моделей. Это фундаментальные ограничения авторегрессионной архитектуры трансформеров. Даже самые актуальные флагманы точно так же подвержены этим проблемам. Да, в меньшей степени, но указанные техники улучшают результат, что доказано исследованиями на разных моделях, в т.ч. на флагманах. Даже в самой статье есть ссылка на официальные рекомендации Antropic (по тем же xml-тегам, например), которые касаются любых их моделей, а не каких-то устаревших. Перейдите по ссылочке в статье, там речь про Opus 4.7. Аналогично по ролям (их эффективность и неэффективность доказана на разных моделях) и другим техникам.

2) Вы пишите: Кто в здравом уме в продакшне использует бесплатные LLM? Внезапно, почти все используют не флагманы. Потому что бизнес умеет считать деньги. И для большинства задач дорогие флагманы не нужны / не стоят того. В продакшене применяются в основном не топовые модели, а минимально достаточные для требуемого результата. Чтобы было дешевле/быстрее/приватно.

Никакого смещения оптики тут нет, если исходить не из позиции "пишу никому не нужные запросы в чатботе на бесплатном тарифе для себя", а из каких-то хотя бы чуть более серьезных задач, где важна надежность, минимизация ошибок, рост качества при имеющихся ограничениях.
Хотя я даже для себя просто в чатботах некоторые из этих техник применяю, т.к. работают :)

Почему ваш LLM-сервис ведёт себя как хочет, а не как вы просите

obulygin 23 апр в 09:57

Эм. Код и подходы не специфичны для конкретной модели. Я показываю примеры на бесплатной только для того, чтобы каждый мог легко попробовать и воспроизвести код.

Модель можно взять любую, поменяется одна строка кода. Статья не про конкретную модель, а про подходы, которые актуальны для многих llm.

Почему ваш LLM-сервис ведёт себя как хочет, а не как вы просите

obulygin 19 апр в 10:07

Да, для тех api, где есть structured output - это костыль. Я в тексте отметил это. Но не у всех просто он есть, особенно когда речь про собственные решения, либо не топовых игроков.

В общем случае это более универсальное (и менее удобное) решение.

Google предлагает разработчикам бесплатный инструмент на основе ИИ для программирования

obulygin 26 фев 2025 в 05:10

У меня в VS Code на нескольких аккаунтах так, на некоторых точно не использовал никаких облаков, они просто личные :(

Информация

Специализация