company_banner

Как краудсорсинговая платформа Яндекса помогает обучать Алису и экономить деньги

    Продолжаем рассказывать о том, как в Яндексе и других крупных компаниях используют краудсорсинг. В предыдущем посте мы говорили о беспилотниках и качестве поиска товаров.

    Сегодня вы узнаете о применении Толоки для обучения Алисы, пополнения Справочника и модерации комментариев. Все подзаголовки кликабельны и ведут на записи докладов. Поехали!

    image

    Работа в поле: сбор и проверка информации для Яндекс.Справочника


    Яндекс.Справочник – это огромная база организаций с контактами, фотографиями, отзывами и другими данными. Чтобы поддерживать ее в актуальном состоянии, приходится собирать и обрабатывать большие объемы информации.

    С этими задачами хорошо справляется Толока – в среднем в месяц 50 тысяч исполнителей решают 15 миллионов заданий Справочника. Среди них есть десктопные, которые решаются дома, и полевые, требующие выполнения на улице.

    В десктопной Толоке выполняются десятки типов разметок для Справочника, таких как модерация фотографий пользователей или расшифровка меню кафе и ресторанов, чтобы выполнять поиск заведений по блюду.

    Не у всех организаций есть телефоны и сайты, чтобы уточнить информацию удаленно. Для актуализации данных о таких организациях толокеры выходят на улицы и выполняют задания с использованием смартфона. На карте показаны выполненные полевые задания за последние несколько месяцев, более миллиона точек.



    Как Толока помогает Алисе быть современной и остроумной


    С Алисой каждый день разговаривает несколько миллионов людей. Каждый решает свои задачи: узнает погоду, получает информацию или просто болтает. Чтобы Алиса могла понять и помочь каждому, ей нужно учиться распознавать речь, а для этого требуется много данных.

    В сборе этих данных помогает Толока. Например, одна из задач – прослушать аудиозапись и расшифровать ее. Примерно за час работы толокеров можно получить 5 часов размеченных аудиозаписей.

    Если попросить человека распознать аудиозапись, его ошибка составит 5-6% неправильно распознанных слов. Если давать одно задание нескольким исполнителям, появляется возможность выбрать лучший вариант. Ошибку в итоговых данных удается сократить до 1-2%.

    Понять, что сказал пользователь, недостаточно. Нужно еще правильно ответить. У ответов Алисы есть несколько аспектов качества. Она должна отвечать уместно, не обращаться к пользователю на «ты», не хамить и не говорить о себе в мужском роде. Все эти метрики представляются в виде заданий на Толоке. Толокеры определяют, обладает ли ответ теми или иными указанными свойствами.

    Но не всегда аспекты качества можно формализовать. Так, синтез речи должен быть естественным, с правильной интонацией, без технических дефектов. Это субъективные параметры, которые сложно представить в виде оценочной модели. Поэтому в Толоке исполнителю предлагается прослушать два варианта одной фразы и выбрать лучший.

    Как сделать, чтобы в Яндекс.Автобусах все играли по правилам


    Яндекс.Автобусы – это сервис, предоставляющий услуги как для пассажиров, так и для перевозчиков. Иногда встречаются недобросовестные водители, которые подбирают пассажиров на остановках, не выписывают им билеты, а полученные деньги забирают себе. В результате перевозчик теряет выручку, что весьма ощутимо на длительных маршрутах.

    Организовать работу контролеров на всем пути следования, например, из Уфы в Москву, достаточно дорого. Звонить пассажирам и спрашивать, сколько человек было в автобусе, не подсаживал ли водитель кого-то по пути, неэффективно. Еще один способ – установить счетчик людей на входе в автобус. Но на длинной дистанции, где много остановок, люди постоянно входят и выходят, что дает ощутимую погрешность. Каждый «потерянный» человек – это потенциальный убыток в 2,5–10% от выручки рейса. Кроме того, водитель по-прежнему легко может обмануть перевозчика, прикрыв датчик.

    Команда Яндекс.Автобусов пришла к решению прикрепить широкоугольную IP-камеру к роутеру в автобусе, периодически делать фото салона и отсылать в диспетчерскую. Так для каждого рейса накапливаются фотографии, где видно, в какой момент сколько пассажиров находится в салоне. Кстати, все лица пассажиров предварительно алгоритмически «размываются». Осталось научиться обрабатывать фото, то есть считать количество пассажиров. На этом этапе возникла проблема: картинка не всегда получается качественной, так как съемка происходит в движении, часто в темноте. Кроме того, камера в автобусе одна, на фото не всегда попадают лица. Готовых моделей, способных посчитать количество людей на таких изображениях, найти не удалось, писать свою было бы слишком долго.

    Разработчики обратились к толокерам. Фото салона отправляются в Толоку с заданием посчитать количество людей на них. Стоимость решения – менее 150 долларов. Чтобы посчитать один рейс, требуется 7 рублей.

    Эксперимент провели на четырех автобусах по 300 рейсам. Оказалось, что 9% выручки шло в обход перевозчика. Сейчас все больше перевозчиков Яндекс.Автобусов подключаются к этой системе.

    Нанять 100500 модераторов и сэкономить: опыт Rambler Group


    Rambler Group развивает более 20 проектов, в том числе новостные ленты и тематические сайты, на каждом из них пользователи оставляют комментарии. Это увеличивает время, проведенное на сайте, и глубину просмотров, что выгодно для ресурса.

    Но есть и другая сторона медали: издание несет ответственность за содержимое комментариев. Чтобы их проверять, нужен штат модераторов. Так как комментарии появляются постоянно, модераторы должны работать круглосуточно, что дорого и достаточно сложно.

    В поисках решения Rambler Group обратилась к Толоке. Сначала запустили эксперимент: выбрали 24717 комментариев, обработанных штатными модераторами, и воссоздали реальный поток поступления этих комментариев в Толоку. Одно задание включало 10 комментариев, на их обработку отводилось 3 минуты. Для контроля качества модерации одно задание предлагали троим исполнителям. Стоимость установили минимальную – 1 цент.

    Результаты:



    На ресурсах Rambler Group действует система постмодерации: любой комментарий сразу попадает на сайт, нужно максимально оперативно удалить некорректные. Как оказалось, толокеры за минуту обрабатывают 10 комментариев, а штатные модераторы – 12. Кроме того, эксперимент показал, что пользоваться услугами толокеров на 60% выгоднее, чем содержать штат модераторов для каждого издания.

    Эксперимент посчитали успешным, но немного поменяли условия. Одно задание теперь предлагают двум исполнителям, если их мнение расходится, подключают третьего. Количество комментариев в задании увеличили с 10 до 15. Это позволило сократить затраты еще на 35%.

    С помощью API комментарии автоматически отправляются в Толоку, проходят модерацию и возвращаются с вердиктом. Теперь комментарии на всех проектах Rambler Group модерируются через Толоку.

    Яндекс

    774,00

    Как мы делаем Яндекс

    Поделиться публикацией
    Комментарии 12
      +1
      Я что хочу сказать — очень дешево. Не очень хочется тратить такое количество времени получая центы. Это просто смешно.
        0

        Зачем тратить время? Наоборот, имеет смысл пользоваться сервисом для своих задач, потому что очень дёшево.

          +2
          поклацал 4 минуты картинки, получил 7 центов — примерно 5 рублей. Час напряженной работы — и бесплатная шаурма в кармане. Очень, очень дешевая шаурма, ингридиенты для которой готовились также через толоку
            0
            Задание: «Определите, чьё это мясо на фотографии»?
          0

          А почему нельзя с IP камеры в автобусе фигачить фото в нейросеть и озадачить чтобы она считала?
          Наподобие https://habr.com/company/mobile_one/blog/422585/

            0
            > Команда Яндекс.Автобусов пришла к решению прикрепить широкоугольную IP-камеру к роутеру в автобусе, периодически делать фото салона и отсылать в диспетчерскую

            Согласие у людей спрашивать не требуется?
              –1

              Поддерживаю. Отправил запрос в РКН, проверить законность таких фото.
              З.Ы. Чувствую, что заминусуете.

                +2

                А разве


                Кстати, все лица пассажиров предварительно алгоритмически «размываются».

                Не решает вопрос? Особенно если добавить надпись о том что ведется видеонаблюение.


                Плюс автобус всетаки общественное место. Я видел в авбтобусах камеры и подпись что ведется видеоналюдение. Но там скорей всего просто на регистратор пишется, без отправки диспетчеру. Хотя дела осбо не меняет

                  0
                  Пусть я и понимаю логику людей которые возмущаются, что их в общественных местах снимают. Да и места со свободным доступом в которых запрещена съёмка. Но если это может увидеть случайный человек, то в этом не много смысла. А ведь это было-бы довольно удобно снимать всё, что с тобой произошло, и потом вместо вспоминания просто пересмотреть. Не говоря уж о том-что можно не словами описывать, а просто показать (и доказать при необходимости) что произошло. Главное чётко разделять где можно снимать, а где нельзя.
                    –1
                    А товарищу майору было бы вдвойне удобно!
                      0
                      Или вдвойне неудобно, если на запись попадёт товарищ полковник.
              0
              Уж не знаю что у Рамблера с модерированием, но раньше у них был противоестсественный интеллект — неадекватные комментарии с руганью оставляли, а нормальные выпиливались.

              Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

              Самое читаемое