Comments 1
Выглядит сомнительно.
Отбирая модели на основании такого теста, мы по сути создаем мета-целевую функцию обучения моделей, а значит получаем модели заточенные именно на эту задачу.
Взяв за основу простейшую алгоритмическую задачу (поиск последовательности хэшей), мы будем оптимизируя модели "двигаться" от распознавания смысла текста к тупому выполнению инструкции. Т.е. тренироваться в прямо противоположном направлении от того которое нам по большому счету нужно.
При этом непонятно почему не пойти чуть дальше. Вместо внедрения хэшей - внедрять в текст последовательности фактов. При подготовке текста формируем набор фактов (можно вымышленных) которые образуют логическую цепочку. Причем все факты как и общая логика цепочки должны быть максимально близки к теме статьи. И внедряем факты в разные части статьи органично вписывая их в текст. Естественно это все можно делать с помощью другой LLM.
По итогу просим нашу модель вывести логическую и фактологическую последовательность соединяющую первый и последний факт.
IMHO, было бы куда полезнее. Только вот сомневаюсь, что нейросетка бы в таком варианте потянула контекст в 100 млн...
Новый метод оценки HashHop вместо «иголка в стоге сена», RULER и 100 млн. токенов контекста