Pull to refresh

Comments 4

Нужно еще понимать базовый принцип генерации ответов у ИИ-моделей: зависимость от настроек температуры. Как это работает: нейросеть выдает набор вероятностей (логитов) для следующего слова. Функция softmax преобразует эти логиты в распределение вероятностей. Параметр температуры (T) изменяет это распределение перед тем, как модель сделает выбор. Формула: softmax(logits / T). Какие бывают значения и что они означают: Низкая температура (T < 1, например, 0.2 - 0.5). Эффект: делает распределение вероятностей более «пикообразным», модель становится более уверенной и консервативной, текст более предсказуемый, детерминированный, фактологичный, модель выбирает только самые вероятные варианты, дает только проверенные, точные ответы. Высокая температура (T > 1, например, 1.2 - 1.8). Эффект: сглаживает распределение вероятностей, текст более случайный, креативный. Температура = 1: используется исходное распределение вероятностей без изменений. Это «стандартный» режим работы моделей, в большинстве дающий ложь из-за высокого параметра креатива и распределения возможностей ответа.

Для успеха нужно работать с температурой, правильным выводом нейронок, а для этого нужно работать с датасетами, машинным обучением, фильтрацией. Но как говорится если умеешь что-то, не делай это бесплатно. Если кто попросит - сделаю об этом пост.

Anthropic утверждает: такой подход существенно повышает надёжность и помогает моделям работать над крупными задачами почти бесконечно — пока остаются фичи, которые надо реализовать.

или пока на балансе не кончатся деньги.

Делал подобное, агент сохранял все MR в виде текстового лога действий. Этот прием хорошо работает, когда план работы составляет одна модель, а выполняет - другая

инженеры нашли способ заставить агентов продолжать работу так, будто они один непрерывный процесс

Моя твоя не понимать (ну или инженеры не смогли 🫠)

Sign up to leave a comment.

Other news