В котором они подтверждают, что красивый маркдаун, более длинные тексты, и разные стилистические хаки завышают рейтинг моделям, которые используют их. И предложили свой способ отделять содержание ответа от его стиля. Сейчас на llmarena.ru мы тоже внедряем этот фильтр.
По нашем данным gpt4 дает довольно сухие ответы без стиля, из-за чего на простых промптах Vikhrmodels/it-5.2-fp16-cp, T-lite ее обгоняет. Скину ниже пару примеров логов.
А как вы боритесь баесом, что модели оценщики (judge LLM as judge) с больше вероятностью голосуют за свою линейку моделей?
Спасибо за интересную статью! А кто у вас отвечает за сбор данных? Отправляете ли вы на объект MLщиков, или у вас есть отдельная роль, кто занимается таким сбором?
Если отдельная роль, то на сколько человек погружен в IT сферу и понимает как лучше организовать сбор, чтобы максимизировать качество собираемых данных?
А если MLщищи, то на сколько они рады таким командировкам?
В разных компаниях видел и 1 и 2 вариант, и оба кажутся не очень идеальными.
Да, автоматизация ускоряет скорость разметки, делает разметчиков более эффективными, удешевляет разметку.
При этом сам рынок разметки никуда не делся, только теперь наиболее конкурентными становятся компании, у которых помимо людей есть и используемые технологии. И компания TrainingData.Solutions - одна из таких)
Пробовали ли вы применять интерактивную сегментацию (Segment Anything, либо HRnet) для простых классов? Думаю губы, брови, глаза она бы хорошо выделяла
Почему вы решили делать разметку полигонами с перекрытием? Если сделать перекрытие 1, но ужесточить валлидацию, не будет ли это более выгодно с точки зрения скорости разметки и стоимости? Мы обычно применяем именно такой подход с перекрытием 1.
По нашему опыту: если просить разметчиков рисовать тимапы, то для них задача остается все также в постановке классической сегментации, но по полученным тиримапам довольно просто получить маттинг алгоритмически
Так в видосике сказано, что у них постобработка AI, которая улучшает качество фото. Под капотом какая-нибудь Super-Resolution моделька. Полюбас в датасете для обучения модельки были изображения луны, поэтому она хорошо запомнила как луна выглядит и с хорошим качеством ее улучшила. Не понимаю, что в этом такого удивительного и необычного?
На сколько падение качественных студентов на ВМК связано именно с глобальной тенденцией, а не с тем, что топовые всеросники стали уходить в другие вузы?
Да, производитель сделал линейку LHR карт, которые были дешевле и в которых был ограничен майнинг. Но весной этого года майнеры взломали LHR карты и сейчас они имеют такой же хешрейт, как и не LHR карты.
Видел ваше задание на Толоке по разметке боксами жестов. Очень понравилась фишка, что в обучении на картинках уже был нарисован бок и толокерам нужно было только его повторить. Это прям сильно упрощало понимание задания!
В статье вы пишете, что использовали перекрытие при разметке боксов. Перекрытие кратно увеличивает стоимость разметки. Было ли у вас сравнение по качеству и стоимости разметки 2-х подходов?
1) Разметка боксами с перекрытием
2) Разметка боксами без перекрытия, но со строгой валлидацией и quality assurance
Да, хорошая идея, она много где используется. Больше всего мне реализация у https://hasty.ai/quality-control понравилась. Но мы у себя в компании на базе CVAT такую штуку реализовали и нам скрипт скидывает ссылки на таски разметчиков, у которых ответ с обученной неронкой не сошелся.
В агументации мы берем уже размечанные данные и чуть-чуть искажаем их, чтобы увеличить кол-во обучающих примеров.
В синтетике мы полностью генерируем данные вместе с разметкой и пытаемся их сделать максимально похожими на данные из реального мира.
В слабой разметке у нас есть сырые неразмечанные данные. Вместо того, чтобы их самим вручную размечать, мы пишем простые правила, которые не 100% точные, но которых много. Поверх этих правил накадываем модель и обучаем ее. Получается что-то похожее на стекинг моделей, но вместо моделей первого уровня используются функции-правила, которые написаны вручную.
Спасибо про интересную статью! Про последний способ читиринга не знал)
Эх, помню былые времена, когда засылал сабмиты только с нулями и только с единичками, чтобы по по формуле Байеса узнавать распределение классов в тесте и делать более точную колибровку засылаемых сабмитов)
У ребят из LMSYS как раз вышла недавно статья "Does style matter? Disentangling style and substance in Chatbot Arena"
В котором они подтверждают, что красивый маркдаун, более длинные тексты, и разные стилистические хаки завышают рейтинг моделям, которые используют их. И предложили свой способ отделять содержание ответа от его стиля. Сейчас на llmarena.ru мы тоже внедряем этот фильтр.
По нашем данным gpt4 дает довольно сухие ответы без стиля, из-за чего на простых промптах Vikhrmodels/it-5.2-fp16-cp, T-lite ее обгоняет. Скину ниже пару примеров логов.
А как вы боритесь баесом, что модели оценщики (judge LLM as judge) с больше вероятностью голосуют за свою линейку моделей?
Где-то через неделю оценка должна появится на llmarena.ru
Отличная статья!
Статья прям по живому задела, у нас тоже офлайн сборы самые интересные и запоминающиеся. SMM даже видео об этом сняло)
Спасибо за интересную статью! А кто у вас отвечает за сбор данных? Отправляете ли вы на объект MLщиков, или у вас есть отдельная роль, кто занимается таким сбором?
Если отдельная роль, то на сколько человек погружен в IT сферу и понимает как лучше организовать сбор, чтобы максимизировать качество собираемых данных?
А если MLщищи, то на сколько они рады таким командировкам?
В разных компаниях видел и 1 и 2 вариант, и оба кажутся не очень идеальными.
Да, автоматизация ускоряет скорость разметки, делает разметчиков более эффективными, удешевляет разметку.
При этом сам рынок разметки никуда не делся, только теперь наиболее конкурентными становятся компании, у которых помимо людей есть и используемые технологии. И компания TrainingData.Solutions - одна из таких)
Пробовали ли вы применять интерактивную сегментацию (Segment Anything, либо HRnet) для простых классов? Думаю губы, брови, глаза она бы хорошо выделяла
Почему вы решили делать разметку полигонами с перекрытием? Если сделать перекрытие 1, но ужесточить валлидацию, не будет ли это более выгодно с точки зрения скорости разметки и стоимости? Мы обычно применяем именно такой подход с перекрытием 1.
По нашему опыту: если просить разметчиков рисовать тимапы, то для них задача остается все также в постановке классической сегментации, но по полученным тиримапам довольно просто получить маттинг алгоритмически
Так в видосике сказано, что у них постобработка AI, которая улучшает качество фото. Под капотом какая-нибудь Super-Resolution моделька. Полюбас в датасете для обучения модельки были изображения луны, поэтому она хорошо запомнила как луна выглядит и с хорошим качеством ее улучшила. Не понимаю, что в этом такого удивительного и необычного?
На сколько падение качественных студентов на ВМК связано именно с глобальной тенденцией, а не с тем, что топовые всеросники стали уходить в другие вузы?
Эх, почему не было таких статей, когда я был студентом)
Да, производитель сделал линейку LHR карт, которые были дешевле и в которых был ограничен майнинг. Но весной этого года майнеры взломали LHR карты и сейчас они имеют такой же хешрейт, как и не LHR карты.
Спасибо за интересную статью!
Видел ваше задание на Толоке по разметке боксами жестов. Очень понравилась фишка, что в обучении на картинках уже был нарисован бок и толокерам нужно было только его повторить. Это прям сильно упрощало понимание задания!
В статье вы пишете, что использовали перекрытие при разметке боксов. Перекрытие кратно увеличивает стоимость разметки. Было ли у вас сравнение по качеству и стоимости разметки 2-х подходов?
1) Разметка боксами с перекрытием
2) Разметка боксами без перекрытия, но со строгой валлидацией и quality assurance
Да, хорошая идея, она много где используется. Больше всего мне реализация у https://hasty.ai/quality-control понравилась. Но мы у себя в компании на базе CVAT такую штуку реализовали и нам скрипт скидывает ссылки на таски разметчиков, у которых ответ с обученной неронкой не сошелся.
http://ai.stanford.edu/blog/weak-supervision/
https://arxiv.org/abs/2002.01687
https://www.borealisai.com/en/blog/generating-labels-model-training-using-weak-supervision/
Не совсем.
В агументации мы берем уже размечанные данные и чуть-чуть искажаем их, чтобы увеличить кол-во обучающих примеров.
В синтетике мы полностью генерируем данные вместе с разметкой и пытаемся их сделать максимально похожими на данные из реального мира.
В слабой разметке у нас есть сырые неразмечанные данные. Вместо того, чтобы их самим вручную размечать, мы пишем простые правила, которые не 100% точные, но которых много. Поверх этих правил накадываем модель и обучаем ее. Получается что-то похожее на стекинг моделей, но вместо моделей первого уровня используются функции-правила, которые написаны вручную.
Добрый день. Да, вы правы. Заменил в заголовке "инструменты" на "компании". Спасибо, что обратили на это внимание.
Обзор инструементов, в которых присутствует всеми нами любимый CVAT, Lalbel Studio можно найти у меня в этих постах:
Лучшие платформы аннотирования изображений для компьютерного зрения на 2019 год
Лучшие инструменты разметки изображений для компьютерного зрения 2020 года
Лучшие инструменты аннотирования для компьютерного зрения в 2021 году
Спасибо про интересную статью! Про последний способ читиринга не знал)
Эх, помню былые времена, когда засылал сабмиты только с нулями и только с единичками, чтобы по по формуле Байеса узнавать распределение классов в тесте и делать более точную колибровку засылаемых сабмитов)