Pull to refresh
74
-1.6
Куцев Роман @kucev

LLMarena.ru: Оцениваем LLM, RAG, AI агентов

Send message

Спасибо за перевод!

Огонь! Какие именно «сложные аналитические задачи» AI-модели решают хуже всего, и почему?

Спасибо за интересную статью! А какой из этапов подготовки данных дал наибольший прирост качества модели? Были ли среди экспериментов этапы, которые, напротив, оказались неэффективными?

В оригинальной статье "Molmo: Outperforming Proprietary Multimodal Language Models" авторы помимо голосовух просят людей показывать на объекты, о которых говорят. Они утверждают, что это помогло научить модель связывать пиксели с текстом.

У вас в гифке после "Давайте смотреть итог:" показывается интерфейс разметки. Правильно ли я понял, что сначала человек выделяет точками объекты про которые он будет рассказывать. И потом записывает голосовуху? Как вы потом соотносите к какой точке какой отрезок аудио относится?

У ребят из LMSYS как раз вышла недавно статья "Does style matter? Disentangling style and substance in Chatbot Arena"

В котором они подтверждают, что красивый маркдаун, более длинные тексты, и разные стилистические хаки завышают рейтинг моделям, которые используют их. И предложили свой способ отделять содержание ответа от его стиля. Сейчас на llmarena.ru мы тоже внедряем этот фильтр.

По нашем данным gpt4 дает довольно сухие ответы без стиля, из-за чего на простых промптах Vikhrmodels/it-5.2-fp16-cp, T-lite ее обгоняет. Скину ниже пару примеров логов.

А как вы боритесь баесом, что модели оценщики (judge LLM as judge) с больше вероятностью голосуют за свою линейку моделей?

Где-то через неделю оценка должна появится на llmarena.ru

Статья прям по живому задела, у нас тоже офлайн сборы самые интересные и запоминающиеся. SMM даже видео об этом сняло)

Спасибо за интересную статью! А кто у вас отвечает за сбор данных? Отправляете ли вы на объект MLщиков, или у вас есть отдельная роль, кто занимается таким сбором?

Если отдельная роль, то на сколько человек погружен в IT сферу и понимает как лучше организовать сбор, чтобы максимизировать качество собираемых данных?

А если MLщищи, то на сколько они рады таким командировкам?

В разных компаниях видел и 1 и 2 вариант, и оба кажутся не очень идеальными.

Да, автоматизация ускоряет скорость разметки, делает разметчиков более эффективными, удешевляет разметку.

При этом сам рынок разметки никуда не делся, только теперь наиболее конкурентными становятся компании, у которых помимо людей есть и используемые технологии. И компания TrainingData.Solutions - одна из таких)

Пробовали ли вы применять интерактивную сегментацию (Segment Anything, либо HRnet) для простых классов? Думаю губы, брови, глаза она бы хорошо выделяла

Почему вы решили делать разметку полигонами с перекрытием? Если сделать перекрытие 1, но ужесточить валлидацию, не будет ли это более выгодно с точки зрения скорости разметки и стоимости? Мы обычно применяем именно такой подход с перекрытием 1.

По нашему опыту: если просить разметчиков рисовать тимапы, то для них задача остается все также в постановке классической сегментации, но по полученным тиримапам довольно просто получить маттинг алгоритмически

Так в видосике сказано, что у них постобработка AI, которая улучшает качество фото. Под капотом какая-нибудь Super-Resolution моделька. Полюбас в датасете для обучения модельки были изображения луны, поэтому она хорошо запомнила как луна выглядит и с хорошим качеством ее улучшила. Не понимаю, что в этом такого удивительного и необычного?

На сколько падение качественных студентов на ВМК связано именно с глобальной тенденцией, а не с тем, что топовые всеросники стали уходить в другие вузы?

Information

Rating
Does not participate
Location
Москва, Москва и Московская обл., Россия
Registered
Activity