All streams
Search
Write a publication
Pull to refresh
91
4
Куцев Роман @kucev

Тестируйте и сравнивайте лучшие LLM на LLMarena.ru

Send message

На сколько падение качественных студентов на ВМК связано именно с глобальной тенденцией, а не с тем, что топовые всеросники стали уходить в другие вузы?

Эх, почему не было таких статей, когда я был студентом)

Да, производитель сделал линейку LHR карт, которые были дешевле и в которых был ограничен майнинг. Но весной этого года майнеры взломали LHR карты и сейчас они имеют такой же хешрейт, как и не LHR карты.

Спасибо за интересную статью!

Видел ваше задание на Толоке по разметке боксами жестов. Очень понравилась фишка, что в обучении на картинках уже был нарисован бок и толокерам нужно было только его повторить. Это прям сильно упрощало понимание задания!

В статье вы пишете, что использовали перекрытие при разметке боксов. Перекрытие кратно увеличивает стоимость разметки. Было ли у вас сравнение по качеству и стоимости разметки 2-х подходов?

1) Разметка боксами с перекрытием

2) Разметка боксами без перекрытия, но со строгой валлидацией и quality assurance

Да, хорошая идея, она много где используется. Больше всего мне реализация у https://hasty.ai/quality-control понравилась. Но мы у себя в компании на базе CVAT такую штуку реализовали и нам скрипт скидывает ссылки на таски разметчиков, у которых ответ с обученной неронкой не сошелся.

Не совсем.

В агументации мы берем уже размечанные данные и чуть-чуть искажаем их, чтобы увеличить кол-во обучающих примеров.

В синтетике мы полностью генерируем данные вместе с разметкой и пытаемся их сделать максимально похожими на данные из реального мира.

В слабой разметке у нас есть сырые неразмечанные данные. Вместо того, чтобы их самим вручную размечать, мы пишем простые правила, которые не 100% точные, но которых много. Поверх этих правил накадываем модель и обучаем ее. Получается что-то похожее на стекинг моделей, но вместо моделей первого уровня используются функции-правила, которые написаны вручную.

Добрый день. Да, вы правы. Заменил в заголовке "инструменты" на "компании". Спасибо, что обратили на это внимание.

Обзор инструементов, в которых присутствует всеми нами любимый CVAT, Lalbel Studio можно найти у меня в этих постах:

Лучшие платформы аннотирования изображений для компьютерного зрения на 2019 год

Лучшие инструменты разметки изображений для компьютерного зрения 2020 года

Лучшие инструменты аннотирования для компьютерного зрения в 2021 году

Спасибо про интересную статью! Про последний способ читиринга не знал)

Эх, помню былые времена, когда засылал сабмиты только с нулями и только с единичками, чтобы по по формуле Байеса узнавать распределение классов в тесте и делать более точную колибровку засылаемых сабмитов)

А тексты для задачи транскрибации Crowd-Kit умеет агрегировать?

Их так и называют "разметчики", "разметчики данных". Еще есть "ассесоры", это разметчики, которые размечают интернет страницы для задачи оценки релевантности.

Оригинальная статья написана в 2018 году. К сожалению, многие инструменты из списка уже устарели. А новых и популярных, таких как labelstud.io, supervise.ly, CVAT в 2018 году еще не существовало.

Недавно в «Я» проходил семинар «Crowdsourcing с механической поддержкой». Там на слайдах промелькнул пайплайн, как они размечают данные для задачи ASR. Возможно вам он будет интересен)image
Антон, спасибо за интересное видео!)
А был ли у вас опыт использования предразметки, когда разметчики размечают данные не с нуля, а данные прогоняются через ML модель и разметчики только подправляют ответы ML модели?
Если да, то можете более подробно рассказать, как вы организовали такой процесс, и как боролись с тем, что у вас чуть-чуть смещается баис из-за такого подхода?
Есть еще вариант не размечать данные, а использовать только публичные датасеты. Для создания MVP отличный подход. Но когда делаешь полноценный продукт, приходится уже кастомизировать датасет под свои нужны и размечать самим.

Кстати, недавно читал похожую статью, но в ней 7 пунктов, а не 5)
Дмитрий, спасибо вам большое за очень интересную статью!
Прочитал от корки до корки несколько раз)
После прочтения у меня возникло несколько вопросов. Буду рад, если вы их прокомментируете)

1. Почему вы используете биномиальный тест для проверки статистической значимости? Ведь биномиальный тест предполагает использование Z-критерия. А он применим, когда мы точно знаем распределение для генеральной совокупности (нормальное или гауссово). На сколько я понял, распределение генеральной совокупности нам неизвестно.

2. Как перед тестом вы определяете необходимый размер выборки людей, чтобы результаты теста получились статзначимыми?

3. Отбираете ли вы исполнителей для выполнения задания? Если да, то в каком формате они проходят обучение и экзамен? Как вы высчитываете навык исполнителей на проекте?)

4. Какими способами вы контролируете качество в проекте? Ведь в таком типе заданий нет 100% правильно ответа, поэтому контроль “мнением большинства” и многие другие методы контроля качества не работают.

5. Применяете ли вы модель Bradley-Terry для агрегации полученных оценок?
Данный сервис работает по всему миру, но в основном в Толоке люди из России и из стран СНГ, также есть небольшая часть людей из Турции. Как мне кажется, для вашей задачи больше подойдет «Amazon Mechanical Turk», чем «Яндекс.Толока».

Information

Rating
1,047-th
Location
Москва, Москва и Московская обл., Россия
Registered
Activity