Комментарии 6
Когда проводится оценка модели, считают процент успешных ответов, но делают ли что-нибудь с теми ответами, которые не верные. Проводится ли анализ, закономерности и т.п. Можно ли сделать какие то предположения о том что вот такая то модель плохо работает вот с такими разделами математики, или когда вопрос формулируют в таком стиле и т.п.?
А если тот же вопрос задать другой модели, той же мощности? А если задать тот же вопрос этой же модели несколько раз (с учетом рандомизации генерации ответа, т.е. temp>0)? Играясь с llama, меняя немного запросы (не принципиально по смыслу но меняя формулировки) очень часто можно добиться верного ответа. Может нужно изучить условия, при которых ответ становится лучше?
p.s. даже в лучшем случае по бенчмаркам выходит что получить верный ответ чуть чуть больше чем в половине случаев... грустно
Можно ли сделать какие то предположения о том что вот такая то модель плохо работает вот с такими разделами математики, или когда вопрос формулируют в таком стиле и т.п.?
Авторы статьи сделали такую оценку только для экспериментов по изменению пропорций данных. Каким-то образом упустила этот абзац, сейчас добавила в статью.
Было бы неплохо, конечно, узнать все результаты по группам, чтобы сделать выводы и предположения, вы правы.
А если тот же вопрос задать другой модели, той же мощности?
Если под мощностью имеется в виду кол-во параметров, то Llemma 7B сравнивалась с CodeLlama 7b и Minerva 8B.
А если задать тот же вопрос этой же модели несколько раз (с учетом рандомизации генерации ответа, т.е. temp>0)?
В главе "Оценка" как раз рассказан метод majority voting, когда генерируется несколько ответов, а далее выбирается самый популярный.
Речь идёт о сравнении плохих результатов у других моделей
@darinka666 на самом деле,судя по результатам (а датасет хороший и объемный), нужно что-то менять в структуре сети.
И если исходить из того что с начала года гпт4 стал хуже работать и в том числе на математических задачах, то...
еще вопрос. а эмбединг предложения смотрели? на сколько близкие задачи близки векторно?
извиняюсь за ожидание)
эмбеддинги авторы статьи не смотрели.
Обзор Llemma: новая математическая open-source модель