Комментарии / Профиль kucev / Хабр

Куцев Роман@kucev

Тестируйте и сравнивайте лучшие LLM на LLMarena.ru

ПрофильСтатьи194ПостыНовостиКомментарии69

Как из любого количества вариантов выбрать лучший: простой пайплайн ранжирования данных в Яндекс.Толоке

kucev 16 окт 2020 в 21:12

Дмитрий, спасибо большое за ответы!)

Как из любого количества вариантов выбрать лучший: простой пайплайн ранжирования данных в Яндекс.Толоке

kucev 15 окт 2020 в 00:03

Дмитрий, спасибо вам большое за очень интересную статью!
Прочитал от корки до корки несколько раз)
После прочтения у меня возникло несколько вопросов. Буду рад, если вы их прокомментируете)

1. Почему вы используете биномиальный тест для проверки статистической значимости? Ведь биномиальный тест предполагает использование Z-критерия. А он применим, когда мы точно знаем распределение для генеральной совокупности (нормальное или гауссово). На сколько я понял, распределение генеральной совокупности нам неизвестно.

2. Как перед тестом вы определяете необходимый размер выборки людей, чтобы результаты теста получились статзначимыми?

3. Отбираете ли вы исполнителей для выполнения задания? Если да, то в каком формате они проходят обучение и экзамен? Как вы высчитываете навык исполнителей на проекте?)

4. Какими способами вы контролируете качество в проекте? Ведь в таком типе заданий нет 100% правильно ответа, поэтому контроль “мнением большинства” и многие другие методы контроля качества не работают.

5. Применяете ли вы модель Bradley-Terry для агрегации полученных оценок?

Создаем датасет для распознавания счетчиков на Яндекс.Толоке

kucev 12 окт 2019 в 10:58

Данный сервис работает по всему миру, но в основном в Толоке люди из России и из стран СНГ, также есть небольшая часть людей из Турции. Как мне кажется, для вашей задачи больше подойдет «Amazon Mechanical Turk», чем «Яндекс.Толока».

Создаем датасет для распознавания счетчиков на Яндекс.Толоке

kucev 11 окт 2019 в 22:47

Боюсь, что в таком случае нейронная сеть распознать счетчик не сможет.
Но это не точно :)

Создаем датасет для распознавания счетчиков на Яндекс.Толоке

kucev 11 окт 2019 в 22:37

Артем, попробовал загрузить через интерфейс пустой файлик (без заданий) и выбрать «Умное смешивание». Все получилось, после этого действия загрузка заданий через API стала работать. Спасибо за очень интересный и простой способ решения проблемы!)

Создаем датасет для распознавания счетчиков на Яндекс.Толоке

kucev 11 окт 2019 в 13:59

В случае, когда пул создается не через API, а через интерфейс, в настройках пула отсутствует блок «Количество заданий на странице». Если добавлять в такой пул задания через API, то задания добавляются, но при этом пользователи их не видят.

Создаем датасет для распознавания счетчиков на Яндекс.Толоке

kucev 11 окт 2019 в 12:55

Довольно интересный факт для пользователей каршеринга Яндекс.Драйв. Если в начале аренды вы фотографируете повреждения/царапины на автомобиле, то полученные фотографии первым делом загружаются в Толоку и люди оценивают присланные изображения.

Создаем датасет для распознавания счетчиков на Яндекс.Толоке

kucev 11 окт 2019 в 12:39

Данное задание довольно легкое, имеет простую инструкцию, не содержит пула обучения. Такие задания люди выполняют на много охотнее, чем сложные задания с десятистраничной инструкцией и долгим процессом обучения. Плюс практически у каждого человека есть счетчик в квартире. Поэтому процент желающих выполнить задание довольно большой. Единственная проблема: количество пользователей мобильной версии Толоки в несколько раз меньше, чем пользователей десктопной версии. На данный момент в Толоке зарегистрировано 4 миллиона человек, DAU более 25к человек.

Создаем датасет для распознавания счетчиков на Яндекс.Толоке

kucev 11 окт 2019 в 12:20

Пример того, как соединять задания через GUI можно посмотреть в этой инструкции от Яндекс.Толоки.

Как написать чат-бота для vk.com за 3 минуты

kucev 17 сен 2018 в 17:02

Спустя пол года я понял, что ошибся. На python3 такой бот работать не будет, так как библиотека vk_api поддерживает только python2

Как создать свой датасет с Киркоровым и Фейсом на Яндекс.Толоке

kucev 8 июн 2018 в 19:16

Так как на Толоке исполнителям задания подаются в написанной вами html, то можно сделать любой тип разметки, который только можно запихнуть в браузер. С готовыми шаблонами вы можете ознакомиться тут.

Как создать свой датасет с Киркоровым и Фейсом на Яндекс.Толоке

kucev 8 июн 2018 в 18:24

Мы не пробовали) Да и фото Фейса у нас нет, так как я поленился его загружать на Толоку)

Как создать свой датасет с Киркоровым и Фейсом на Яндекс.Толоке

kucev 8 июн 2018 в 18:20

Да, вы совершенно правы. Если бы это была реальная задача, а не игрушечный пример, то я:
1) Скачал бы фото Киркорова.
2) С помощью dlib нашел бы и вырезал все лица
3) Удалил бы все лица, которые меньше 299*299, а все, которые больше 299*299, привел бы к нужному размеру.
4) И уже полученные лица проверил через Толоку.

Как создать свой датасет с Киркоровым и Фейсом на Яндекс.Толоке

kucev 7 июн 2018 в 16:26

В основном на Толоке сидят люди из дальних регионов, где работы совсем нет и они готовы работать за любые деньги. На самом деле, если задание сложное и на освоение инструкции исполнителям придется потратить некоторое время, то цена часа вырастает где-то до 70-120 руб.

Как создать свой датасет с Киркоровым и Фейсом на Яндекс.Толоке

kucev 7 июн 2018 в 12:27

На странице с заданием размещено 40 фото. В среднем исполнители 40 фото проверяют за 1 мин 37 сек. Попробовав сам наиболее быстро проверить 40 фото, у меня вышло 52 сек, поэтому было решено, что если исполнитель выполняет быстрее, чем за 40 сек, то либо он невнимательно делает, либо является ботом.

Специалист по разметке данных

kucev 26 апр 2018 в 13:55

Мы в Prisma AI довольно часто пользуемся VGG Image Annotator, работает в любом браузере, легкая, гибкая в настройке и проста в освоении.

QML: как легко получать футболки в конкурсах mail.ru по машинному обучению

kucev 18 июл 2017 в 14:51

Бедный Бабушкин, он был так уверен в своей победе, а в итоге 128 место(

Нейросеть Deep Photo Style Transfer переносит стиль на фотографиях

kucev 16 апр 2017 в 15:18

Нужно сегментировать и МГУ и Дисней. Причем цвета для сегментации надо выбирать именно такие, а не рандомные) Сегментация для МГУ называется examples/segmentation/in1.png, а для Диснея examples/segmentation/tar1.png

Нейросеть Deep Photo Style Transfer переносит стиль на фотографиях

kucev 16 апр 2017 в 15:07

да) в photoshop ))

Нейросеть Deep Photo Style Transfer переносит стиль на фотографиях

kucev 16 апр 2017 в 12:00

th neuralstyle_seg.lua -backend cudnn -cudnn_autotune -content_image examples/input/in1.png -style_image examples/style/tar1.png -content_seg examples/segmentation/in1.png -style_seg examples/segmentation/tar1.png -index 1 -num_iterations 1000 -save_iter 100 -print_iter 1 -gpu 0 -serial examples/tmp_results && th deepmatting_seg.lua -backend cudnn -cudnn_autotune -content_image examples/input/in1.png -style_image examples/style/tar1.png -init_image examples/tmp_results/out1_t_1000.png -content_seg examples/segmentation/in1.png -style_seg examples/segmentation/tar1.png -index 1 -num_iterations 1000 -save_iter 100 -print_iter 1 -gpu 0 -serial examples/final_results -f_radius 15 -f_edge 0.01

Еще есть Step by step console commands

1 2