Pull to refresh
4K+
4
Ярослав Рыбалка@YarikRock

User

2
Rating
Send message

Evals: мегастатья для фаундера, чей AI-агент работает как попало

Level of difficultyMedium
Reading time32 min
Reach and readers4.6K

Через несколько дней будет 16 лет, как я на Хабре. Это моя первая статья.

Я делаю десктопный AI-ассистент для встреч. Агент суммаризирует транскрипты — и делал это плохо: галлюцинирует решения, теряет задачи, путает кто что сказал. Полгода я чинил промпты по ощущениям — менял слово, смотрел глазами на пару примеров, говорил «вроде лучше», деплоил. Это называется vibes-based development, и это тупик.

Потом я разобрался с evals — по сути, тестами для недетерминированных систем. Перелопатил Hamel Husain, Eugene Yan, гайды Anthropic, доку Mastra. Написал всё в одном месте: мегастатья от ручного разбора ошибок до self-improving loops, где агент улучшает себя сам за ночь. С кодом, граблями и метафорами про пиццу.

Читать далее

Information

Rating
1,740-th
Location
Санкт-Петербург, Санкт-Петербург и область, Россия
Date of birth
Registered
Activity

Specialization

Project Director