Как стать автором
Обновить

Как пользоваться краудсорсингом? Практический туториал от Яндекса

Блог компании Яндекс Машинное обучение *Учебный процесс в IT Краудсорсинг
Мы опубликовали первый русскоязычный туториал по краудсорсингу:


Это серия видео о том, как с помощью передачи простых заданий большому числу исполнителей собрать и разметить данные. Исполнителям можно поручить разные задания: найти что угодно в интернете, оценить дизайн, проверить или создать контент, поучаствовать в опросе, добраться до точки на карте и сфотографировать там что-нибудь. Тысячи людей будут одновременно выполнять перечисленные действия, формируя необходимый набор данных. Выпуск туториала — повод вновь поговорить о том, как краудсорсинг радикально меняет процессы в компаниях.
Всего голосов 16: ↑16 и ↓0 +16
Просмотры 5.2K
Комментарии 2

Яндекс.Толока. Как люди помогают обучать машинный интеллект

Блог компании Яндекс Поисковые технологии *Анализ и проектирование систем *Машинное обучение *
Вот уже полтора года в Яндексе для совершенствования поисковых алгоритмов и технологий машинного интеллекта применяется платформа Толока. Может показаться удивительным, но все современные технологии машинного обучения в той или иной степени нуждаются в человеческих оценках.

Люди оценивают релевантность эталонных документов поисковым запросам, чтобы на них ориентировались формулы ранжирования в поиске; люди переписывают аудиозаписи в текст, чтобы на этих данных настроился алгоритм голосового распознавания; люди размечают изображения по категориям, чтобы, натренировавшись на этих примерах, нейронная сеть дальше делала это без людей и лучше людей.



Все это можно делать в Толоке, которая является краудсорсинговой платформой и помогает найти тех, кто решит вашу задачу. Сегодня она переходит в статус беты и отныне открыта для всех внешних заказчиков. Так что пришло время рассказать вам подробно о самой платформе и о том, с какими неожиданными сложностями мы сталкивались в процессе работы над ней, поделимся своими наблюдениями и объясним, как Толока может помочь именно вам.
Читать дальше →
Всего голосов 76: ↑72 и ↓4 +68
Просмотры 97K
Комментарии 68

Как пользователи учат Яндекс предупреждать о телефонном спаме

Блог компании Яндекс Спам и антиспам Информационная безопасность *Разработка мобильных приложений *Машинное обучение *
С телефонным спамом знакомы все, кто засветил свой номер в интернете, заполнил сомнительную анкету в офлайне или кому просто не повезло попасть в многочисленные базы. Сегодня мы расскажем читателям Хабрахабра о том, как с помощью отзывов пользователей и машинного обучения мы научили приложение Яндекс предупреждать о нежелательных звонках.



Звонки с незнакомых номеров – это всегда тяжелый выбор. Звонит ли это долгожданный курьер или очередной оператор с «уникальным» рекламным предложением? Для решения этой проблемы существуют мобильные приложения, которые работают на базе справочников известных организаций. Отчасти они решают проблему. Но наиболее агрессивные спамеры, сомнительные коллекторы и злоумышленники в такие базы не попадают. Что делать?

Читать дальше →
Всего голосов 76: ↑74 и ↓2 +72
Просмотры 61K
Комментарии 195

Лекция о Толоке. Как тысячи людей помогают нам делать Яндекс

Блог компании Яндекс Яндекс API *Промышленное программирование *Управление сообществом *
Ежедневно десятки тысяч людей выполняют задания в Толоке: оценивают релевантность сайтов, классифицируют изображения, отмечают объекты на фотографиях. Решая эти и многие другие задачи, они помогают нам улучшать существующие и создавать новые алгоритмы, а также поддерживать актуальность данных.

С одной стороны, Толока появилась сравнительно недавно — в 2014 году. С другой, она служит важнейшей частью всех ключевых сервисов Яндекса и десятков сервисов поменьше. Артём Григорьев ortemij объяснил, как эта краудсорсинговая платформа устроена, какие технологии и архитектурные решения применяются при её разработке. Кроме того, Артём рассказал про логику раздачи заданий пользователям, работу с геоданными на карте и управление качеством.


— Пару слов обо мне. Я более семи лет работаю в петербургском офисе Яндекса. Когда я только пришел сюда, я занимался различными инструментами для оценки качества поиска. Мы разрабатывали разные метрики, сравнивали себя с конкурентами и разными версиями других поисковых систем. Сейчас я руковожу службой с длинным названием, как на слайде.
Всего голосов 14: ↑12 и ↓2 +10
Просмотры 13K
Комментарии 17

Как создать свой датасет с Киркоровым и Фейсом на Яндекс.Толоке

Блог компании Open Data Science Data Mining *Обработка изображений *Big Data *Машинное обучение *


Нейронными сетями уже никого не удивишь. Практически каждый человек знает, что такое машинное обучение, линейная регрессия, random forest. Каждый год тысячи людей проходят курсы по машинному обучению на ODS и Coursera. Любой школьник за пару недель теперь может освоить keras и клепать нейроночки. Но в нейронных сетях, как и во всем машинном обучении, помимо создания хорошего алгоритма, необходимы данные, на которых алгоритм будет обучаться.

Читать дальше →
Всего голосов 87: ↑85 и ↓2 +83
Просмотры 31K
Комментарии 27

Как краудсорсинговая платформа Яндекса помогает обучать беспилотники и оценивать качество сервисов

Блог компании Яндекс Машинное обучение *Краудсорсинг
В работе часто встречаются долгие и однообразные задачи, для решения которых нужно много людей. Например, расшифровать несколько сотен аудиозаписей, разметить тысячи изображений или отфильтровать комментарии, число которых постоянно растет. Для этих целей можно содержать десятки штатных сотрудников. Но всех их нужно найти, отобрать, мотивировать, контролировать, обеспечить развитие и карьерный рост. А если объем работы сократится, их придется переобучать или увольнять.

Во многих случаях, особенно если не требуется специального обучения, такую работу могут взять на себя исполнители Толоки, краудсорсинговой платформы Яндекса. Эта система легко масштабируется: если заданий от одного заказчика станет меньше, толокеры пойдут к другому, если число задач увеличится, будут только рады.

Под катом – примеры того, как Толока помогает Яндексу и другим компаниям развивать свои продукты. Все заголовки кликабельны – ссылки ведут на записи докладов.



Читать дальше →
Всего голосов 27: ↑26 и ↓1 +25
Просмотры 5.6K
Комментарии 2

Как краудсорсинговая платформа Яндекса помогает обучать Алису и экономить деньги

Блог компании Яндекс Бизнес-модели *Краудсорсинг
Продолжаем рассказывать о том, как в Яндексе и других крупных компаниях используют краудсорсинг. В предыдущем посте мы говорили о беспилотниках и качестве поиска товаров.

Сегодня вы узнаете о применении Толоки для обучения Алисы, пополнения Справочника и модерации комментариев. Все подзаголовки кликабельны и ведут на записи докладов. Поехали!

image

Читать дальше →
Всего голосов 22: ↑19 и ↓3 +16
Просмотры 5.4K
Комментарии 12

Методы распознавания 3D-объектов для беспилотных автомобилей. Доклад Яндекса

Блог компании Яндекс Работа с 3D-графикой *Машинное обучение *Автомобильные гаджеты
Беспилотному авто не обойтись без понимания, что находится вокруг и где именно. В декабре прошлого года разработчик Виктор Отлига vitonka выступил на «Дата-елке» с докладом о детекции 3D-объектов. Виктор работает в направлении беспилотных автомобилей Яндекса, в группе обработки дорожной ситуации (а также преподает в ШАДе). Он объяснил, как мы решаем задачу распознавания других участников дорожного движения в трехмерном облаке точек, чем эта задача отличается от распознавания объектов на изображении и как извлечь пользу из совместного использования разных типов сенсоров.


— Всем привет! Меня зовут Виктор Отлига, я работаю в офисе Яндекса в Минске, занимаюсь разработкой беспилотных автомобилей. Сегодня я расскажу о достаточно важной задаче для беспилотников — распознавании 3D-объектов вокруг нас.
Всего голосов 39: ↑38 и ↓1 +37
Просмотры 11K
Комментарии 18

Яндекс открывает датасеты Толоки для исследователей

Блог компании Яндекс Data Mining *Открытые данные *Исследования и прогнозы в IT *Краудсорсинг
Толока — крупнейший источник размеченных людьми данных для задач машинного обучения. Каждый день в Толоке десятки тысяч исполнителей производят более 5 миллионов оценок. Для любых исследований и экспериментов, связанных с машинным обучением, необходимы большие объёмы качественных данных. Поэтому мы начинаем публиковать открытые датасеты для академических исследований в разных предметных областях.

Сегодня мы поделимся ссылками на первые публичные датасеты и расскажем о том, как они собирались. А ещё подскажем, где же правильно ставить ударение в названии нашей платформы.
Читать дальше →
Всего голосов 83: ↑81 и ↓2 +79
Просмотры 32K
Комментарии 27

Создаем датасет для распознавания счетчиков на Яндекс.Толоке

Блог компании Open Data Science Data Mining *Обработка изображений *Big Data *Краудсорсинг
Tutorial


Как-то два года назад, случайно включив телевизор, я увидел интересный сюжет в программе "Вести". В нём рассказывали о том, что департамент информационных технологий Москвы создает нейросеть, которая будет считывать показания счетчиков воды по фотографиям. В сюжете телеведущий попросил горожан помочь проекту и прислать снимки своих счетчиков на портал mos.ru, чтобы на них обучить нейронную сеть. 


Если Вы — департамент Москвы, то выпустить ролик на федеральном канале и попросить людей прислать изображения счетчиков — не очень большая проблема. Но что делать, если Вы — маленький стартап, и сделать рекламу на телеканале не можете? Как получить 50000 изображений счетчиков в таком случае?

Читать дальше →
Всего голосов 68: ↑62 и ↓6 +56
Просмотры 19K
Комментарии 33

Новые модели поиска и анализа данных. WSDM 2020 глазами команды Яндекс.Толоки

Блог компании Яндекс Исследования и прогнозы в IT *Конференции Краудсорсинг
Международные научные конференции помогают следить за трендами в индустрии, узнавать о передовых разработках ведущих компаний, университетов и рассказывать о себе. Конечно, это относится только ко времени, когда мир не погружён в пучину пандемии.

До того, как все страны перешли на режим самоизоляции, мы командой Яндекс.Толоки успели съездить на конференцию WSDM (произносится как wisdom), чтобы провести туториал по краудсорсингу, презентовать нашу статью и пообщаться с коллегами по цеху.

Меня зовут Алексей Друца, я руководитель отдела эффективности и развития управления краудсорсинга и платформизации в Яндексе. В компании занимаюсь теоретическими и прикладными исследованиями в областях, связанных с дискретными алгоритмами, теорией аукционов, машинным обучением, анализом данных и вычислительной математикой. За время работы я опубликовал более 20 научных статей, в том числе в рамках конференций NIPS, KDD, WWW, WSDM, SIGIR и CIKM. В этом посте расскажу о своих впечатлениях после посещения WSDM, а также сделаю небольшой обзор самых интересных докладов.


Плакат конференции
Читать дальше →
Всего голосов 21: ↑19 и ↓2 +17
Просмотры 2.1K
Комментарии 1

Как из любого количества вариантов выбрать лучший: простой пайплайн ранжирования данных в Яндекс.Толоке

Блог компании Яндекс Интерфейсы *Исследования и прогнозы в IT *Краудсорсинг
Tutorial

Привет, Хабр! Меня зовут Дмитрий Браженко. Разработка продуктов и сервисов регулярно сталкивает нас с необходимостью выбрать лучший вариант: какая иконка красивее? Какая кнопка удобнее? Краудсорсинг – отличный способ учесть мнение потенциальных пользователей, проведя несложные UX-тесты.


Делюсь готовым решением – пайплайном для ранжирования данных. Код на гитхабе прилагается! Под катом расскажу, как запустить, на что обратить внимание, покажу несколько примеров использования.


Всего голосов 14: ↑13 и ↓1 +12
Просмотры 3.1K
Комментарии 3