Pull to refresh

Comments 6

Когда проводится оценка модели, считают процент успешных ответов, но делают ли что-нибудь с теми ответами, которые не верные. Проводится ли анализ, закономерности и т.п. Можно ли сделать какие то предположения о том что вот такая то модель плохо работает вот с такими разделами математики, или когда вопрос формулируют в таком стиле и т.п.?

А если тот же вопрос задать другой модели, той же мощности? А если задать тот же вопрос этой же модели несколько раз (с учетом рандомизации генерации ответа, т.е. temp>0)? Играясь с llama, меняя немного запросы (не принципиально по смыслу но меняя формулировки) очень часто можно добиться верного ответа. Может нужно изучить условия, при которых ответ становится лучше?

p.s. даже в лучшем случае по бенчмаркам выходит что получить верный ответ чуть чуть больше чем в половине случаев... грустно

Можно ли сделать какие то предположения о том что вот такая то модель плохо работает вот с такими разделами математики, или когда вопрос формулируют в таком стиле и т.п.?

Авторы статьи сделали такую оценку только для экспериментов по изменению пропорций данных. Каким-то образом упустила этот абзац, сейчас добавила в статью.
Было бы неплохо, конечно, узнать все результаты по группам, чтобы сделать выводы и предположения, вы правы.

А если тот же вопрос задать другой модели, той же мощности?

Если под мощностью имеется в виду кол-во параметров, то Llemma 7B сравнивалась с CodeLlama 7b и Minerva 8B.

А если задать тот же вопрос этой же модели несколько раз (с учетом рандомизации генерации ответа, т.е. temp>0)?

В главе "Оценка" как раз рассказан метод majority voting, когда генерируется несколько ответов, а далее выбирается самый популярный.

@darinka666 на самом деле,судя по результатам (а датасет хороший и объемный), нужно что-то менять в структуре сети.
И если исходить из того что с начала года гпт4 стал хуже работать и в том числе на математических задачах, то...

еще вопрос. а эмбединг предложения смотрели? на сколько близкие задачи близки векторно?

извиняюсь за ожидание)

эмбеддинги авторы статьи не смотрели.

Просто из опыта, одна из составляющих метрики, по таким задачам, лучше брать такую, чтобы близкие или просто переформулированные задачи имели близкие эмбединги.
К примеру: (2+3)/4 должна иметь близкий эмбединг к (3+2)/4, а так же близкий к 3/4+0.5

Sign up to leave a comment.