darinka666 2 ноя 2023 в 12:22

Обзор Llemma: новая математическая open-source модель

Средний

6 мин

11K

Блог компании MTS AIИскусственный интеллект

+12

Комментарии 6

rPman 2 ноя 2023 в 16:36

Когда проводится оценка модели, считают процент успешных ответов, но делают ли что-нибудь с теми ответами, которые не верные. Проводится ли анализ, закономерности и т.п. Можно ли сделать какие то предположения о том что вот такая то модель плохо работает вот с такими разделами математики, или когда вопрос формулируют в таком стиле и т.п.?

А если тот же вопрос задать другой модели, той же мощности? А если задать тот же вопрос этой же модели несколько раз (с учетом рандомизации генерации ответа, т.е. temp>0)? Играясь с llama, меняя немного запросы (не принципиально по смыслу но меняя формулировки) очень часто можно добиться верного ответа. Может нужно изучить условия, при которых ответ становится лучше?

p.s. даже в лучшем случае по бенчмаркам выходит что получить верный ответ чуть чуть больше чем в половине случаев... грустно

darinka666 2 ноя 2023 в 18:22

Можно ли сделать какие то предположения о том что вот такая то модель плохо работает вот с такими разделами математики, или когда вопрос формулируют в таком стиле и т.п.?

Авторы статьи сделали такую оценку только для экспериментов по изменению пропорций данных. Каким-то образом упустила этот абзац, сейчас добавила в статью.
Было бы неплохо, конечно, узнать все результаты по группам, чтобы сделать выводы и предположения, вы правы.

А если тот же вопрос задать другой модели, той же мощности?

Если под мощностью имеется в виду кол-во параметров, то Llemma 7B сравнивалась с CodeLlama 7b и Minerva 8B.

А если задать тот же вопрос этой же модели несколько раз (с учетом рандомизации генерации ответа, т.е. temp>0)?

В главе "Оценка" как раз рассказан метод majority voting, когда генерируется несколько ответов, а далее выбирается самый популярный.

rPman 2 ноя 2023 в 18:47

Речь идёт о сравнении плохих результатов у других моделей

maxxxsudb 6 ноя 2023 в 11:44

@darinka666 на самом деле,судя по результатам (а датасет хороший и объемный), нужно что-то менять в структуре сети.
И если исходить из того что с начала года гпт4 стал хуже работать и в том числе на математических задачах, то...

еще вопрос. а эмбединг предложения смотрели? на сколько близкие задачи близки векторно?

darinka666 25 ноя 2023 в 21:05

извиняюсь за ожидание)

эмбеддинги авторы статьи не смотрели.

maxxxsudb 29 ноя 2023 в 09:26

Просто из опыта, одна из составляющих метрики, по таким задачам, лучше брать такую, чтобы близкие или просто переформулированные задачи имели близкие эмбединги.
К примеру: (2+3)/4 должна иметь близкий эмбединг к (3+2)/4, а так же близкий к 3/4+0.5

Зарегистрируйтесь на Хабре, чтобы оставить комментарий