Pull to refresh

Comments 4

https://t.me/greenruff/1756

Сейчас как раз для себя делаю другую модель, где сетки занимаются оценкой. Давно предложил и проверил ее, так как она уменьшает галлюцинации и позволяет находить более точный ответ. Там прикладывал исходники.

Когда несколько моделей выступают арбитрами и оценивают ответы других и так же дают оценку причинам их ответа. Где в итоге, побеждает та модель, которая набрала больше всего баллов.

То есть в отличие от данной модели "Учёный - испытуемый", в случае когда арбитры, нет конкретного ученого или испытуемого. Каждая является ученым по отношению к другим, и испытуемым для других. Это действительно сильно повышало качество, но требует значительных ресурсов по времени и запросам.

Собственно сейчас тоже ради этого, генерирую "виккипедию" данным образом, чтобы потом получить качественный датасет для обучения. А заодно проверить подход на крупных данных.
Так что для таких вещей, описанный метод очень не плох, но имеет некоторые проблемы собственной самооценкой (если используем только "Учёный - испытуемый").

Что касается описанного подхода ASD, то модель "учёный - испытуемый" в том виде, как сейчас имеет ряд серьезных проблем:

1) Слепота к собственным ошибкам:

Модель может некорректно оценивать свои ответы, если ошибка заложена в её внутренних паттернах. Например, если "испытуемый" неправильно выполняет арифметические операции, модель-оценщик (даже такой же версией) может не заметить ошибку из-за "слепых зон".

Тот же GPT-4 иногда ошибается в многошаговых вычислениях и рассуждениях, и если оценка проводится через него же, то ошибка может остаться незамеченной.

2) Предвзятость при генерации задач:

Модель-учёный может часто генерировать задачи, которые соответствуют её сильным данным, игнорируя слабые. Например, если модель хуже справляется с логическими задачами, она будет создавать меньше таких задач, что искажает оценку.

К примеру Claude, обученный на диалогах, будет генерировать больше задач на понимание текста и меньше на математику.

3) Циклическая ошибка:

Если учёный и испытуемый — одна модель, ошибки могут усиливаться. Например, систематическая ошибка в определении контекста будет продолжать воспроизводиться на всех этапах.

4) Проблемы с генерацией архива задач

Пример неудачной задачи: Задача "Назовите цвет неба" легко может быть добавлена в архив, хотя она не раскрывает реальных возможностей модели и по-сути будет мусором.

5) Ограничения метрик

Например задача "Сложите 2 и 3" и "Прибавьте 3 к 2" будут расценены как разные задачи, хотя проверяют один навык.

6) Игнорирование нюансов контекста

В какои то творческом задании модель может дать формально правильный, но бессмысленный ответ, который ACD пометит как "успешный". Тут на Хабре очень любят обсуждение таких ответов и определение верно или нет.

7) Риск переобучения

Если ASD генерирует задачи, похожие на обучающие данные. Это когда модель-учёный генерирует задачи, близкие к тем, что были в датасете испытуемого, оценка может быть завышена.

Для примера если Llama3 обучалась на GitHub-коде, задачи на генерацию кода будут для неё "лёгкими", но это не отразит её реальные способности решать новые проблемы.

То есть часть задач можно решить. Поэтому подход использовать много разных арбитров с разными LLM часть этих проблем решает.

Интересно, то есть вы делаете технологию, которая еще мощнее той, что описана в этой статье?

А насколько они генерируют нестандартные задачи, которые человеку бы и в голову не пришли (см. описание в статье)?

Кстати, в статье упомянуто, что используются люди-эксперты за деньги (!!!), чтобы оценивать вопросы, придуманные моделью...

Люди-эксперты конечно присутствуют в ASD, я поэтому и написал что часть проблем там решаема. Просто изначально может показаться, что ASD полностью уберет людей и автоматизирует процесс. Насчет нестандартных задач не знаю, так как это все особенности инструкций. Для этого надо делать тогда еще сложные модель для оценки поставленных задач при их генерации и метрики для этого, а не просто давать это на откуп модели через инструкции.

Там еще есть проблема в том, что если модель состоит всего из двух элементов как в ASD, то тут может возникнуть проблема как и при обучении. Когда модель улавливает закономерность, что за более расплывчатые ответы они получает например не максимум оценку, а среднюю. Но в итоге эта средняя дает больше результат баллов (если Loss связан с этим). То она начинает использовать это, вместо более сложных вопросов и ответов.

В общем проблем там действительно много. Поэтому я решил для себя начать с генерации аналоги вики, так как там сами темы статей являются вопросами. А затем уже смотреть на генерацию самих задач.

Sign up to leave a comment.

Articles