Спасибо за интересную статью! А какой из этапов подготовки данных дал наибольший прирост качества модели? Были ли среди экспериментов этапы, которые, напротив, оказались неэффективными?
В оригинальной статье "Molmo: Outperforming Proprietary Multimodal Language Models" авторы помимо голосовух просят людей показывать на объекты, о которых говорят. Они утверждают, что это помогло научить модель связывать пиксели с текстом.
У вас в гифке после "Давайте смотреть итог:" показывается интерфейс разметки. Правильно ли я понял, что сначала человек выделяет точками объекты про которые он будет рассказывать. И потом записывает голосовуху? Как вы потом соотносите к какой точке какой отрезок аудио относится?
В котором они подтверждают, что красивый маркдаун, более длинные тексты, и разные стилистические хаки завышают рейтинг моделям, которые используют их. И предложили свой способ отделять содержание ответа от его стиля. Сейчас на llmarena.ru мы тоже внедряем этот фильтр.
По нашем данным gpt4 дает довольно сухие ответы без стиля, из-за чего на простых промптах Vikhrmodels/it-5.2-fp16-cp, T-lite ее обгоняет. Скину ниже пару примеров логов.
А как вы боритесь баесом, что модели оценщики (judge LLM as judge) с больше вероятностью голосуют за свою линейку моделей?
Спасибо за интересную статью! А кто у вас отвечает за сбор данных? Отправляете ли вы на объект MLщиков, или у вас есть отдельная роль, кто занимается таким сбором?
Если отдельная роль, то на сколько человек погружен в IT сферу и понимает как лучше организовать сбор, чтобы максимизировать качество собираемых данных?
А если MLщищи, то на сколько они рады таким командировкам?
В разных компаниях видел и 1 и 2 вариант, и оба кажутся не очень идеальными.
Да, автоматизация ускоряет скорость разметки, делает разметчиков более эффективными, удешевляет разметку.
При этом сам рынок разметки никуда не делся, только теперь наиболее конкурентными становятся компании, у которых помимо людей есть и используемые технологии. И компания TrainingData.Solutions - одна из таких)
Пробовали ли вы применять интерактивную сегментацию (Segment Anything, либо HRnet) для простых классов? Думаю губы, брови, глаза она бы хорошо выделяла
Почему вы решили делать разметку полигонами с перекрытием? Если сделать перекрытие 1, но ужесточить валлидацию, не будет ли это более выгодно с точки зрения скорости разметки и стоимости? Мы обычно применяем именно такой подход с перекрытием 1.
По нашему опыту: если просить разметчиков рисовать тимапы, то для них задача остается все также в постановке классической сегментации, но по полученным тиримапам довольно просто получить маттинг алгоритмически
Так в видосике сказано, что у них постобработка AI, которая улучшает качество фото. Под капотом какая-нибудь Super-Resolution моделька. Полюбас в датасете для обучения модельки были изображения луны, поэтому она хорошо запомнила как луна выглядит и с хорошим качеством ее улучшила. Не понимаю, что в этом такого удивительного и необычного?
На сколько падение качественных студентов на ВМК связано именно с глобальной тенденцией, а не с тем, что топовые всеросники стали уходить в другие вузы?
Спасибо за перевод!
Огонь! Какие именно «сложные аналитические задачи» AI-модели решают хуже всего, и почему?
Спасибо за интересную статью! А какой из этапов подготовки данных дал наибольший прирост качества модели? Были ли среди экспериментов этапы, которые, напротив, оказались неэффективными?
Спасибо!
Вот: llmarena.ru
В оригинальной статье "Molmo: Outperforming Proprietary Multimodal Language Models" авторы помимо голосовух просят людей показывать на объекты, о которых говорят. Они утверждают, что это помогло научить модель связывать пиксели с текстом.
У вас в гифке после "Давайте смотреть итог:" показывается интерфейс разметки. Правильно ли я понял, что сначала человек выделяет точками объекты про которые он будет рассказывать. И потом записывает голосовуху? Как вы потом соотносите к какой точке какой отрезок аудио относится?
🔥🔥🔥
Крутая статья!
У ребят из LMSYS как раз вышла недавно статья "Does style matter? Disentangling style and substance in Chatbot Arena"
В котором они подтверждают, что красивый маркдаун, более длинные тексты, и разные стилистические хаки завышают рейтинг моделям, которые используют их. И предложили свой способ отделять содержание ответа от его стиля. Сейчас на llmarena.ru мы тоже внедряем этот фильтр.
По нашем данным gpt4 дает довольно сухие ответы без стиля, из-за чего на простых промптах Vikhrmodels/it-5.2-fp16-cp, T-lite ее обгоняет. Скину ниже пару примеров логов.
А как вы боритесь баесом, что модели оценщики (judge LLM as judge) с больше вероятностью голосуют за свою линейку моделей?
Где-то через неделю оценка должна появится на llmarena.ru
Отличная статья!
Статья прям по живому задела, у нас тоже офлайн сборы самые интересные и запоминающиеся. SMM даже видео об этом сняло)
Спасибо за интересную статью! А кто у вас отвечает за сбор данных? Отправляете ли вы на объект MLщиков, или у вас есть отдельная роль, кто занимается таким сбором?
Если отдельная роль, то на сколько человек погружен в IT сферу и понимает как лучше организовать сбор, чтобы максимизировать качество собираемых данных?
А если MLщищи, то на сколько они рады таким командировкам?
В разных компаниях видел и 1 и 2 вариант, и оба кажутся не очень идеальными.
Да, автоматизация ускоряет скорость разметки, делает разметчиков более эффективными, удешевляет разметку.
При этом сам рынок разметки никуда не делся, только теперь наиболее конкурентными становятся компании, у которых помимо людей есть и используемые технологии. И компания TrainingData.Solutions - одна из таких)
Пробовали ли вы применять интерактивную сегментацию (Segment Anything, либо HRnet) для простых классов? Думаю губы, брови, глаза она бы хорошо выделяла
Почему вы решили делать разметку полигонами с перекрытием? Если сделать перекрытие 1, но ужесточить валлидацию, не будет ли это более выгодно с точки зрения скорости разметки и стоимости? Мы обычно применяем именно такой подход с перекрытием 1.
По нашему опыту: если просить разметчиков рисовать тимапы, то для них задача остается все также в постановке классической сегментации, но по полученным тиримапам довольно просто получить маттинг алгоритмически
Так в видосике сказано, что у них постобработка AI, которая улучшает качество фото. Под капотом какая-нибудь Super-Resolution моделька. Полюбас в датасете для обучения модельки были изображения луны, поэтому она хорошо запомнила как луна выглядит и с хорошим качеством ее улучшила. Не понимаю, что в этом такого удивительного и необычного?
На сколько падение качественных студентов на ВМК связано именно с глобальной тенденцией, а не с тем, что топовые всеросники стали уходить в другие вузы?