Обновить
94
0
Куцев Роман@kucev

Тестируйте и сравнивайте лучшие LLM на LLMarena.ru

Отправить сообщение

В случае увеличения нагрузки на Telegram-бота (много одновременных пользователей), какие узкие места вы наблюдали у AI Agent + Supabase, и есть ли рекомендации по масштабированию таких workflow?

Очень интересная статья, спасибо!

Спасибо за перевод!

Огонь! Какие именно «сложные аналитические задачи» AI-модели решают хуже всего, и почему?

Спасибо за интересную статью! А какой из этапов подготовки данных дал наибольший прирост качества модели? Были ли среди экспериментов этапы, которые, напротив, оказались неэффективными?

В оригинальной статье "Molmo: Outperforming Proprietary Multimodal Language Models" авторы помимо голосовух просят людей показывать на объекты, о которых говорят. Они утверждают, что это помогло научить модель связывать пиксели с текстом.

У вас в гифке после "Давайте смотреть итог:" показывается интерфейс разметки. Правильно ли я понял, что сначала человек выделяет точками объекты про которые он будет рассказывать. И потом записывает голосовуху? Как вы потом соотносите к какой точке какой отрезок аудио относится?

Крутая статья!

У ребят из LMSYS как раз вышла недавно статья "Does style matter? Disentangling style and substance in Chatbot Arena"

В котором они подтверждают, что красивый маркдаун, более длинные тексты, и разные стилистические хаки завышают рейтинг моделям, которые используют их. И предложили свой способ отделять содержание ответа от его стиля. Сейчас на llmarena.ru мы тоже внедряем этот фильтр.

По нашем данным gpt4 дает довольно сухие ответы без стиля, из-за чего на простых промптах Vikhrmodels/it-5.2-fp16-cp, T-lite ее обгоняет. Скину ниже пару примеров логов.

А как вы боритесь баесом, что модели оценщики (judge LLM as judge) с больше вероятностью голосуют за свою линейку моделей?

Где-то через неделю оценка должна появится на llmarena.ru

Отличная статья!

Статья прям по живому задела, у нас тоже офлайн сборы самые интересные и запоминающиеся. SMM даже видео об этом сняло)

Спасибо за интересную статью! А кто у вас отвечает за сбор данных? Отправляете ли вы на объект MLщиков, или у вас есть отдельная роль, кто занимается таким сбором?

Если отдельная роль, то на сколько человек погружен в IT сферу и понимает как лучше организовать сбор, чтобы максимизировать качество собираемых данных?

А если MLщищи, то на сколько они рады таким командировкам?

В разных компаниях видел и 1 и 2 вариант, и оба кажутся не очень идеальными.

Да, автоматизация ускоряет скорость разметки, делает разметчиков более эффективными, удешевляет разметку.

При этом сам рынок разметки никуда не делся, только теперь наиболее конкурентными становятся компании, у которых помимо людей есть и используемые технологии. И компания TrainingData.Solutions - одна из таких)

Пробовали ли вы применять интерактивную сегментацию (Segment Anything, либо HRnet) для простых классов? Думаю губы, брови, глаза она бы хорошо выделяла

Информация

В рейтинге
5 865-й
Откуда
Москва, Москва и Московская обл., Россия
Зарегистрирован
Активность