Обновить
5
Олег Булыгин@obulygin

Data Science & ML Expert | EdTech Consultant

Отправить сообщение

Все верно. И достичь исключительно через промпт 100% надежности пока невозможно.

Готов поспорить буквально с каждой фразой в вашем комментарии.

1) Промпт-инъекции, каскадные ошибки в логике и галлюцинации - это не баги "дешевых" моделей. Это фундаментальные ограничения авторегрессионной архитектуры трансформеров. Даже самые актуальные флагманы точно так же подвержены этим проблемам. Да, в меньшей степени, но указанные техники улучшают результат, что доказано исследованиями на разных моделях, в т.ч. на флагманах. Даже в самой статье есть ссылка на официальные рекомендации Antropic (по тем же xml-тегам, например), которые касаются любых их моделей, а не каких-то устаревших. Перейдите по ссылочке в статье, там речь про Opus 4.7. Аналогично по ролям (их эффективность и неэффективность доказана на разных моделях) и другим техникам.

2) Вы пишите: Кто в здравом уме в продакшне использует бесплатные LLM? Внезапно, почти все используют не флагманы. Потому что бизнес умеет считать деньги. И для большинства задач дорогие флагманы не нужны / не стоят того. В продакшене применяются в основном не топовые модели, а минимально достаточные для требуемого результата. Чтобы было дешевле/быстрее/приватно.

Никакого смещения оптики тут нет, если исходить не из позиции "пишу никому не нужные запросы в чатботе на бесплатном тарифе для себя", а из каких-то хотя бы чуть более серьезных задач, где важна надежность, минимизация ошибок, рост качества при имеющихся ограничениях.
Хотя я даже для себя просто в чатботах некоторые из этих техник применяю, т.к. работают :)

Эм. Код и подходы не специфичны для конкретной модели. Я показываю примеры на бесплатной только для того, чтобы каждый мог легко попробовать и воспроизвести код.

Модель можно взять любую, поменяется одна строка кода. Статья не про конкретную модель, а про подходы, которые актуальны для многих llm.

Да, для тех api, где есть structured output - это костыль. Я в тексте отметил это. Но не у всех просто он есть, особенно когда речь про собственные решения, либо не топовых игроков.

В общем случае это более универсальное (и менее удобное) решение.

У меня в VS Code на нескольких аккаунтах так, на некоторых точно не использовал никаких облаков, они просто личные :(

Информация

В рейтинге
800-й
Откуда
Россия
Дата рождения
Зарегистрирован
Активность

Специализация

Ученый по данным, ML разработчик
SQL
Python
Английский язык
Машинное обучение
Pandas
Анализ данных
MatPlotLib
Преподавание в IT
Нейронные сети
Deep Learning