Доклад был в конце 2024 года. На тот момент Qwen2-vl на этой задаче лучше метрики показывала из открытых моделей. Позже тестировали Pixtral - метрики хуже на этой задаче. Gemma не тестировали. Сейчас Qwen2.5-vl - лучшая модель среди открытых на этой задаче.
LLM быстро улучшаются в качестве. Последние MOE модели(qwen 3) дают сильный буст в скорости работы нейронки. Выходит новое железо, что тоже ускоряет и удешевляет LLM матчинг.
Есть сравнение в чуть более сложном пайплайне. Qwen 2.5 vl чуть лучше, чем Qwen 2 vl. Точные цифры не подскажу.
Доклад был в конце 2024 года. На тот момент Qwen2-vl на этой задаче лучше метрики показывала из открытых моделей.
Позже тестировали Pixtral - метрики хуже на этой задаче. Gemma не тестировали.
Сейчас Qwen2.5-vl - лучшая модель среди открытых на этой задаче.
В этом пайплайне бустинга нет.
LLM быстро улучшаются в качестве. Последние MOE модели(qwen 3) дают сильный буст в скорости работы нейронки. Выходит новое железо, что тоже ускоряет и удешевляет LLM матчинг.