Продолжаем рассказывать о том, как в Яндексе и других крупных компаниях используют краудсорсинг. В предыдущем посте мы говорили о беспилотниках и качестве поиска товаров.
Сегодня вы узнаете о применении Толоки для обучения Алисы, пополнения Справочника и модерации комментариев. Все подзаголовки кликабельны и ведут на записи докладов. Поехали!
Яндекс.Справочник – это огромная база организаций с контактами, фотографиями, отзывами и другими данными. Чтобы поддерживать ее в актуальном состоянии, приходится собирать и обрабатывать большие объемы информации.
С этими задачами хорошо справляется Толока – в среднем в месяц 50 тысяч исполнителей решают 15 миллионов заданий Справочника. Среди них есть десктопные, которые решаются дома, и полевые, требующие выполнения на улице.
В десктопной Толоке выполняются десятки типов разметок для Справочника, таких как модерация фотографий пользователей или расшифровка меню кафе и ресторанов, чтобы выполнять поиск заведений по блюду.
Не у всех организаций есть телефоны и сайты, чтобы уточнить информацию удаленно. Для актуализации данных о таких организациях толокеры выходят на улицы и выполняют задания с использованием смартфона. На карте показаны выполненные полевые задания за последние несколько месяцев, более миллиона точек.
С Алисой каждый день разговаривает несколько миллионов людей. Каждый решает свои задачи: узнает погоду, получает информацию или просто болтает. Чтобы Алиса могла понять и помочь каждому, ей нужно учиться распознавать речь, а для этого требуется много данных.
В сборе этих данных помогает Толока. Например, одна из задач – прослушать аудиозапись и расшифровать ее. Примерно за час работы толокеров можно получить 5 часов размеченных аудиозаписей.
Если попросить человека распознать аудиозапись, его ошибка составит 5-6% неправильно распознанных слов. Если давать одно задание нескольким исполнителям, появляется возможность выбрать лучший вариант. Ошибку в итоговых данных удается сократить до 1-2%.
Понять, что сказал пользователь, недостаточно. Нужно еще правильно ответить. У ответов Алисы есть несколько аспектов качества. Она должна отвечать уместно, не обращаться к пользователю на «ты», не хамить и не говорить о себе в мужском роде. Все эти метрики представляются в виде заданий на Толоке. Толокеры определяют, обладает ли ответ теми или иными указанными свойствами.
Но не всегда аспекты качества можно формализовать. Так, синтез речи должен быть естественным, с правильной интонацией, без технических дефектов. Это субъективные параметры, которые сложно представить в виде оценочной модели. Поэтому в Толоке исполнителю предлагается прослушать два варианта одной фразы и выбрать лучший.
Яндекс.Автобусы – это сервис, предоставляющий услуги как для пассажиров, так и для перевозчиков. Иногда встречаются недобросовестные водители, которые подбирают пассажиров на остановках, не выписывают им билеты, а полученные деньги забирают себе. В результате перевозчик теряет выручку, что весьма ощутимо на длительных маршрутах.
Организовать работу контролеров на всем пути следования, например, из Уфы в Москву, достаточно дорого. Звонить пассажирам и спрашивать, сколько человек было в автобусе, не подсаживал ли водитель кого-то по пути, неэффективно. Еще один способ – установить счетчик людей на входе в автобус. Но на длинной дистанции, где много остановок, люди постоянно входят и выходят, что дает ощутимую погрешность. Каждый «потерянный» человек – это потенциальный убыток в 2,5–10% от выручки рейса. Кроме того, водитель по-прежнему легко может обмануть перевозчика, прикрыв датчик.
Команда Яндекс.Автобусов пришла к решению прикрепить широкоугольную IP-камеру к роутеру в автобусе, периодически делать фото салона и отсылать в диспетчерскую. Так для каждого рейса накапливаются фотографии, где видно, в какой момент сколько пассажиров находится в салоне. Кстати, все лица пассажиров предварительно алгоритмически «размываются». Осталось научиться обрабатывать фото, то есть считать количество пассажиров. На этом этапе возникла проблема: картинка не всегда получается качественной, так как съемка происходит в движении, часто в темноте. Кроме того, камера в автобусе одна, на фото не всегда попадают лица. Готовых моделей, способных посчитать количество людей на таких изображениях, найти не удалось, писать свою было бы слишком долго.
Разработчики обратились к толокерам. Фото салона отправляются в Толоку с заданием посчитать количество людей на них. Стоимость решения – менее 150 долларов. Чтобы посчитать один рейс, требуется 7 рублей.
Эксперимент провели на четырех автобусах по 300 рейсам. Оказалось, что 9% выручки шло в обход перевозчика. Сейчас все больше перевозчиков Яндекс.Автобусов подключаются к этой системе.
Rambler Group развивает более 20 проектов, в том числе новостные ленты и тематические сайты, на каждом из них пользователи оставляют комментарии. Это увеличивает время, проведенное на сайте, и глубину просмотров, что выгодно для ресурса.
Но есть и другая сторона медали: издание несет ответственность за содержимое комментариев. Чтобы их проверять, нужен штат модераторов. Так как комментарии появляются постоянно, модераторы должны работать круглосуточно, что дорого и достаточно сложно.
В поисках решения Rambler Group обратилась к Толоке. Сначала запустили эксперимент: выбрали 24717 комментариев, обработанных штатными модераторами, и воссоздали реальный поток поступления этих комментариев в Толоку. Одно задание включало 10 комментариев, на их обработку отводилось 3 минуты. Для контроля качества модерации одно задание предлагали троим исполнителям. Стоимость установили минимальную – 1 цент.
Результаты:
На ресурсах Rambler Group действует система постмодерации: любой комментарий сразу попадает на сайт, нужно максимально оперативно удалить некорректные. Как оказалось, толокеры за минуту обрабатывают 10 комментариев, а штатные модераторы – 12. Кроме того, эксперимент показал, что пользоваться услугами толокеров на 60% выгоднее, чем содержать штат модераторов для каждого издания.
Эксперимент посчитали успешным, но немного поменяли условия. Одно задание теперь предлагают двум исполнителям, если их мнение расходится, подключают третьего. Количество комментариев в задании увеличили с 10 до 15. Это позволило сократить затраты еще на 35%.
С помощью API комментарии автоматически отправляются в Толоку, проходят модерацию и возвращаются с вердиктом. Теперь комментарии на всех проектах Rambler Group модерируются через Толоку.
Сегодня вы узнаете о применении Толоки для обучения Алисы, пополнения Справочника и модерации комментариев. Все подзаголовки кликабельны и ведут на записи докладов. Поехали!
Работа в поле: сбор и проверка информации для Яндекс.Справочника
Яндекс.Справочник – это огромная база организаций с контактами, фотографиями, отзывами и другими данными. Чтобы поддерживать ее в актуальном состоянии, приходится собирать и обрабатывать большие объемы информации.
С этими задачами хорошо справляется Толока – в среднем в месяц 50 тысяч исполнителей решают 15 миллионов заданий Справочника. Среди них есть десктопные, которые решаются дома, и полевые, требующие выполнения на улице.
В десктопной Толоке выполняются десятки типов разметок для Справочника, таких как модерация фотографий пользователей или расшифровка меню кафе и ресторанов, чтобы выполнять поиск заведений по блюду.
Не у всех организаций есть телефоны и сайты, чтобы уточнить информацию удаленно. Для актуализации данных о таких организациях толокеры выходят на улицы и выполняют задания с использованием смартфона. На карте показаны выполненные полевые задания за последние несколько месяцев, более миллиона точек.
Как Толока помогает Алисе быть современной и остроумной
С Алисой каждый день разговаривает несколько миллионов людей. Каждый решает свои задачи: узнает погоду, получает информацию или просто болтает. Чтобы Алиса могла понять и помочь каждому, ей нужно учиться распознавать речь, а для этого требуется много данных.
В сборе этих данных помогает Толока. Например, одна из задач – прослушать аудиозапись и расшифровать ее. Примерно за час работы толокеров можно получить 5 часов размеченных аудиозаписей.
Если попросить человека распознать аудиозапись, его ошибка составит 5-6% неправильно распознанных слов. Если давать одно задание нескольким исполнителям, появляется возможность выбрать лучший вариант. Ошибку в итоговых данных удается сократить до 1-2%.
Понять, что сказал пользователь, недостаточно. Нужно еще правильно ответить. У ответов Алисы есть несколько аспектов качества. Она должна отвечать уместно, не обращаться к пользователю на «ты», не хамить и не говорить о себе в мужском роде. Все эти метрики представляются в виде заданий на Толоке. Толокеры определяют, обладает ли ответ теми или иными указанными свойствами.
Но не всегда аспекты качества можно формализовать. Так, синтез речи должен быть естественным, с правильной интонацией, без технических дефектов. Это субъективные параметры, которые сложно представить в виде оценочной модели. Поэтому в Толоке исполнителю предлагается прослушать два варианта одной фразы и выбрать лучший.
Как сделать, чтобы в Яндекс.Автобусах все играли по правилам
Яндекс.Автобусы – это сервис, предоставляющий услуги как для пассажиров, так и для перевозчиков. Иногда встречаются недобросовестные водители, которые подбирают пассажиров на остановках, не выписывают им билеты, а полученные деньги забирают себе. В результате перевозчик теряет выручку, что весьма ощутимо на длительных маршрутах.
Организовать работу контролеров на всем пути следования, например, из Уфы в Москву, достаточно дорого. Звонить пассажирам и спрашивать, сколько человек было в автобусе, не подсаживал ли водитель кого-то по пути, неэффективно. Еще один способ – установить счетчик людей на входе в автобус. Но на длинной дистанции, где много остановок, люди постоянно входят и выходят, что дает ощутимую погрешность. Каждый «потерянный» человек – это потенциальный убыток в 2,5–10% от выручки рейса. Кроме того, водитель по-прежнему легко может обмануть перевозчика, прикрыв датчик.
Команда Яндекс.Автобусов пришла к решению прикрепить широкоугольную IP-камеру к роутеру в автобусе, периодически делать фото салона и отсылать в диспетчерскую. Так для каждого рейса накапливаются фотографии, где видно, в какой момент сколько пассажиров находится в салоне. Кстати, все лица пассажиров предварительно алгоритмически «размываются». Осталось научиться обрабатывать фото, то есть считать количество пассажиров. На этом этапе возникла проблема: картинка не всегда получается качественной, так как съемка происходит в движении, часто в темноте. Кроме того, камера в автобусе одна, на фото не всегда попадают лица. Готовых моделей, способных посчитать количество людей на таких изображениях, найти не удалось, писать свою было бы слишком долго.
Разработчики обратились к толокерам. Фото салона отправляются в Толоку с заданием посчитать количество людей на них. Стоимость решения – менее 150 долларов. Чтобы посчитать один рейс, требуется 7 рублей.
Эксперимент провели на четырех автобусах по 300 рейсам. Оказалось, что 9% выручки шло в обход перевозчика. Сейчас все больше перевозчиков Яндекс.Автобусов подключаются к этой системе.
Нанять 100500 модераторов и сэкономить: опыт Rambler Group
Rambler Group развивает более 20 проектов, в том числе новостные ленты и тематические сайты, на каждом из них пользователи оставляют комментарии. Это увеличивает время, проведенное на сайте, и глубину просмотров, что выгодно для ресурса.
Но есть и другая сторона медали: издание несет ответственность за содержимое комментариев. Чтобы их проверять, нужен штат модераторов. Так как комментарии появляются постоянно, модераторы должны работать круглосуточно, что дорого и достаточно сложно.
В поисках решения Rambler Group обратилась к Толоке. Сначала запустили эксперимент: выбрали 24717 комментариев, обработанных штатными модераторами, и воссоздали реальный поток поступления этих комментариев в Толоку. Одно задание включало 10 комментариев, на их обработку отводилось 3 минуты. Для контроля качества модерации одно задание предлагали троим исполнителям. Стоимость установили минимальную – 1 цент.
Результаты:
На ресурсах Rambler Group действует система постмодерации: любой комментарий сразу попадает на сайт, нужно максимально оперативно удалить некорректные. Как оказалось, толокеры за минуту обрабатывают 10 комментариев, а штатные модераторы – 12. Кроме того, эксперимент показал, что пользоваться услугами толокеров на 60% выгоднее, чем содержать штат модераторов для каждого издания.
Эксперимент посчитали успешным, но немного поменяли условия. Одно задание теперь предлагают двум исполнителям, если их мнение расходится, подключают третьего. Количество комментариев в задании увеличили с 10 до 15. Это позволило сократить затраты еще на 35%.
С помощью API комментарии автоматически отправляются в Толоку, проходят модерацию и возвращаются с вердиктом. Теперь комментарии на всех проектах Rambler Group модерируются через Толоку.