Сервис такси разыгрывает базу контактов клиентов и водителей

    Популярный украинский сервис такси Uklon регулярно устраивает розыгрыши среди своих водителей и клиентов. По результатам каждого розыгрыша они публикуют на свою facebook страницу видео с контактными данными участников: имя и адрес электронной почты (пример, видео удалили). Фрагмент кадра:


    В оригинальном видео адреса не размыты, их для статьи размыл я, чтобы не распространять эти данные дальше. На мое письмо в их поддержку, что это не очень хорошая идея:
    Добрый день!
    Нельзя в видео (ссылка) выкладывать адреса и имена людей.
    1. Во-первых, ваши конкуренты могут получить список ваших клиентов и водителей
    2. Во-вторых, вы нарушаете закон Украины про доступ к персональным данным

    Они ответили, что им все равно:
    Здравствуйте, Денис, при регистрации каждый пользователь дает согласие на использование его персональных данных uklon.com.ua/document/useragreement — пункт 2.6. Большое спасибо за ваш отзыв.

    Поэтому я решил написать небольшой пост, как можно получить контактные данные с видео, не используя какие-то специальные умения. Дисклаймер: этот пост носит образовательный характер, и демонстрирует как не стоит обращаться с данными клиентов.

    1. Скачиваем видео


    Есть много сервисов для скачивания видео с facebook. Я воспользовался http://www.fbdown.net/, он дает прямую ссылку на видео. Все последующие примеры будут на Убунте, но должны аналогично работать и в других ОС.

    2. Разбиваем на кадры


    В исходном видео список контактов показан в первых 17 секундах видео. С помощью ffmpeg мы сохраняем первые 17 секунд видео, как последовательность png изображений:

    $ ffmpeg -i video.mp4 -t 00:00:17 out%d.png
    

    3. Подготавливаем к OCR


    Для распознавания мы будем использовать свободный OCR tesseract. Который довольно неплохо работает, но чувствителен к качеству исходных изображений.

    Обрежем все лишнее используя ImageMagick
    с кадров (начиная с координат 40, 202 и размеров 345x421).

    convert '*.png[345x421+40+202]' thumbnail%03d.png

    Должно получиться как на картинке справа, без размытия конечно же.

    Tesseract плохо определяет небольшие буквы, поэтому в его мануале рекомендуют просто увеличить скриншоты в 2-3 раза:

    convert thumbnail*.png -filter Lanczos -resize 300% final%d.png

    4. Распознавание


    Приходимся по всем файлам и распознаем. Ключом -psm 4 мы указываем, что хотим чтобы tesseract воспринимал текст как одну колонку. А ключом load_system_dawg=0, что не надо использовать словари при распознавании:

    for i in final*.png; do tesseract $i stdout -psm 4 -l eng+rus -c load_system_dawg=0; done > text.txt
    

    Удаляем дубликаты — и наша база готова:

    sort -u text.txt > uniq.txt
    

    Выводы


    В результате работы в базе довольно много ошибок. И есть два варианта улучшения:

    • использовать коммерческие OCR;
    • настроить шаблоны для tesseract, чтобы он знал, что мы распознаем адреса электронной почты.

    В любом случае цель статьи было показать не качество распознавания, а принципиальную возможность сделать это быстро и с минимальными ресурсами.

    Update: Законность действий сервиса


    В 2012 глава Государственной службы Украины по вопросам защиты персональных данных давал комментарий, что даже база электронных адресов попадает под действия Закона Украины «О защите персональных данных». И соответственно публикация таких данных может повлечь за собой административную или уголовную ответственность. (источник, укр.)

    Update 2: Комментарии сервиса


    Сервис ответил на мою статью, что не считает базу электронных адресов персональными данными:
    Здравствуйте, Денис, мы прочли вашу статью. Персональные данные – сведения или совокупность сведений о физическом лице, которое идентифицировано или может быть конкретно идентифицировано; Это сведения, по которым можно идентифицировать физическое лицо. К таким сведениям относятся фамилия, имя, отчество; дата и место рождения, адрес и телефон; идентификационный код; паспортные данные; документы об образовании и другое.


    Update 3: Сервис удалил видео с контактами со своей страницы


    Это, как мне кажется, правильное решение с их стороны:
    Добрый день, по причине беспокойства пользователей о безопасности своих персональных данных, команда онлайн сервиса вызова авто “Uklon”, приняла решение о размещении не всей информации об участнике (победителе) акции, а именно, размещать только Ф.И.О. победителей в дальнейших розыгрышах.
    Напомним, что ранее мы публиковали имя или никнейм и электронную почту пользователя в программе random.org.
    При этом хотим отметить, что принимая участие в акции, пользователь соглашается на использование и публикацию его персональных данных,
    согласно Правилам акции, которые всегда размещаются на официальном сайте Уклон, и условия которых принимают все участники акции, говориться, что каждый Участник Акции свидетельствует и подтверждает, что ознакомлен с правами, которые касаются его персональных данных, а также с тем, что его добровольно предоставленные персональные данные являются согласием на их обработку и распространение (распространение) Организатором / Исполнителем Акции по своему усмотрению любыми способами с маркетинговой, рекламной и / или любой другой целью, не противоречащей законодательству Украины. Указанное согласие дано с учетом требований ст.7, ст. 8 и ст. 11 Закона Украины «О защите персональных данных» и действует бессрочно и без ограничения территории действия.
    AdBlock has stolen the banner, but banners are not teeth — they will be back

    More
    Ads

    Comments 41

      +6
      2.6. Обязуясь выполнять требования данного Соглашения, Пользователь дает свое полное, безусловное и безотзывное согласие на использование его персональных данных, предоставленных в рамках регистрации на Портале, для включения таких персональных данных в базу персональных данных Пользователей Портала.

      Если я не ошибаюсь, эти вещи так не работают)

        0
        Ну, в РФ нельзя выкладывать персональные данные в общий доступ, ибо право на обработку запрашивается, а не на публикацию. А вот как там на Украине — я без понятия.
          +1
          У нас так же. Мне кажется просто девочка которая отвечала на письмо в этом вопросе полный ноль. Или же это политика компании
            +1
            Ну да, сработать не должно. Но есть другой вопрос — а являются ли указанные данные — имя и e-mail персональными данными, или нет, именно с точки зрения закона?
            Насколько я понимаю — очень большое количество форумов отображают и то и другое(да ещё и с датой рождения) в профиле пользователя.
              0
              Закон весьма обтекаемо это описывает. Лучше рассчитывать на худший вариант и считать что да, эти данные являются ПД.
                0
                На нормальных форумах по умолчанию это не отображается и пользователь сам должен выставить переключатель в «отображать».
                  0
                  Попадает. Добавил в пост комментарий по этому поводу.
                    0

                    а есть ли у нас какой-то орган, в который можно пожаловаться? Было бы интересно попробовать ради интереса

                      +2
                      Уполномоченный по правам человека:

                      Стаття 23 Повноваження Уповноваженого Верховної Ради України з прав людини у сфері захисту персональних даних

                      1. Уповноважений має такі повноваження у сфері захисту персональних даних:

                      1) отримувати пропозиції, скарги та інші звернення фізичних і юридичних осіб з питань захисту персональних даних та приймати рішення за результатами їх розгляду;

                      2) проводити на підставі звернень або за власною ініціативою виїзні та безвиїзні, планові, позапланові перевірки володільців або розпорядників персональних даних в порядку, визначеному Уповноваженим, із забезпеченням відповідно до закону доступу до приміщень, де здійснюється обробка персональних даних;
                        +1

                        У меня хоть по бабушкиной линии корни в/на Украину уходят, но мову не понимаю, можно перевод, пожалуйста?

                          0
                          Жаловаться можно уполномоченному по правам человека. А он/она уже может на основании жалобы инициировать проверку.
                            0
                            Я заметил, гугл-транслейт весьма недурственно справляется с переводом с украинского на русский.
                  0
                  Не ошибаешься, согласно закону, гражданин имеет право потребовать информации о том где храняться его персональные данные, а также потребовать, чтобы они были удалены. «безотзывное согласие на использование его персональных данных» — это конечно же полная туфта.
                  +2
                  в РФ бы прокуратура по первому же обращению лавочку прикрыла.
                    0

                    вот да, в Украине как-то еще не развилась такая практика, есть чему поучиться

                      +1
                      Вы пробовали? Роскомнадзору и Прокуратуре РФ абсолютно все равно на ваши жалобы про нарушение Закона о ПД.
                        +1
                        Был опыт оказываться с обоих сторон баррикад. Пару лет проработал помощником ректора при институте, поверьте, сейчас наши госорганы работают совсем иначе чем лет 5-10 назад. Это касается и трудовой инспекции, и прокураторы, и минобра, и даже роском однажды пару ультимативных писем написал от которых не открестишься.
                        Обычно по первому обращению какой-нибудь «Машеньки» сначала требуют объясниться в течение стольки-то дней почему мол такая-то фигня, и чуть что не так — приезжают. Связано с тем что планы всем надо выполнять и перед начальством отчитываться.
                        Сейчас чуть что где кому не понравилось обычно в первую очередь скандалисты прокуратурой пугают. К счастью, в последней и хорошие люди работают, кто не рубит с плеча лишь бы палку набить.
                      +5
                      Мне другое больше «нравится»: на одном платёжном сервисе есть возможность пополнить счёт водителя Uklon-а, указав свой позывной. Позывной — число, значит, как-никак перебирается. Например, порядковый номер «1»:



                      На следующем шаге видно сумму баланса этого водителя:



                      Другой платёжный сервис раньше по этому позывном не показывал баланс, зато показывал полностью ФИО водителя (сейчас только имя, без фамилии и отчества):




                      Таким образом, на одном платёжном сервисе можно получить ФИО, а на втором — сумму баланса водителя Uklon-а.

                      Так что, имхо, Uklon отдаёт данные не только о своих клиентах направо-налево (достаточно почитать форумы/соцсети, где люди пишут про то, что после использования этого такси их начал приходить СМС-спам), а и о своих водителях.
                        0
                        Приват, вроде отслеживает незавершенные платежи и блокирует этот сервис, так что много не соберешь.
                          0
                          Да, как и EasyPay просит ввести капчу после нескольких таких действий. Но суть в другом: одним Uklon отдаёт баланс, другим — ФИО (уже исправлено, только имя).
                        –3
                        Сначала вы пишете, что tesseract довольно неплохо работает, а потом оказывается, что в результате работы в базе довольно много ошибок. Скорее довольно плохо работает.
                          +9
                          Надеюсь, они умрут скоро. Сидели жирной жопой на стуле, торговали базой, набирали в штат кого попало. Как только пришел убер, хопин, яндекс, сраз начали шевелиться, но поздно уже.
                            0
                            вас ведь никто не заставляет пользоваться сервисом, или в убере выбирать машины классом повыше.
                            а вот как вы в убере вызываете микроавтобус, чтобы уехать 5+? Что делаете, когда «машин поблизости нет»? Или когда 30-50% адресов некорректно распознается. или когда водитель везет неоптимальным маршрутом и ловит все пробки (а потом пиши-строчи, чтобы проанализировали и вернули деньги). а уклон все эти проблемы решил «из-коробки».
                            в убере забит адрес «Дом» — центр города. После 3-5 обращений не осилили пофиксить баг, из-за которого не сохраняется номер дома, а машина приезжать хз куда.
                            но для каждой задачи подходит свой инструмент. если нужно быстро и сейчас любой ценой (и если рядом есть машина) — здесь убер выигрывает. если ездишь по крупным город по разным странам — выигрывает, т.к. пользуешься той же картой и тем же приложением (и можно карты на страны назначать). и быдлить водитель вряд ли будет, т.к. кошельком реально отвечает.
                            свои плюсы и минусы в общем.
                              +1
                              Никто не заставляет, конечно, но эти «резиновые изделия №2» конкретно задолбали продавая базу своих пользователей для массового спаминга.
                                0
                                В Киеве гугл-карты реально тупят и убер тут страдает за них… А все остальное будет — и минивэны и блэк… Просто не все сразу.
                                  0

                                  В Киеве яндекс карты у убера. При чем по заявлению водителей они лучше гугловских. И все правки очень оперативно вносятся.
                                  Но оно сырое очень. А что значит "будет"? Я по северной Европе поездил и отличий вообще не заметил. Опции те же. Израиль — то же самое

                                    0
                                    В Израиле убер в замоченном состоянии — родина gett. В каждой стране свой набор опций. Не везде его дружелюбно встречают и не везде демократии хватает.
                              0
                              «1. Во-первых, ваши конкуренты могут получить список ваших клиентов и водителей
                              2. Во-вторых, вы нарушаете закон Украины про доступ к персональным данным»

                              Второй пункт должен был бы первым идти )
                                +1
                                на коммерческую компанию первый пункт, имхо, должен оказывать большее воздействие
                                  0
                                  Ukrainian reversal.
                                +1
                                Да ладно, тут всем юзерам некого интернет магазина сменили пароль на название этого магазина и разоспали всем email типа «заходите за скидками». А на очевидный вопрос что любой может зайти в любой ЛК и узнать ФИО в этом ЛК, просто не ответили.
                                  +1
                                  нет понятия «криминальная ответственность». есть «уголовная».
                                    +4
                                    «криминальная ответственность» — это когда братки в кожаных куртках приходят :-)
                                      0
                                      Спасибо, исправил.
                                      0
                                      То что они свои солонки клиенскую базу и водителей сливают, это правда, но это их проблемы. А вот по поводу персоданных, я бы не согласился. Почтовый ящик с именем — это не персоданные, имхо. Они не позволяют точно сказать кто такой этот вася vasya023@nomail.com. Или в Украине это относится к персоданным?
                                        0
                                        Ох-ох-ох… Спасибо вам огромное. Давно и часто пользуюсь этим сервисом — пока видел в нём только плюсы — удобный сайт, всегда есть машины (если не из центра в час пик), вообще развиваются — молодцы и т.д.
                                        Оказывается — всё совсем печально… Буду рассказывать и водителям — может они Uklon со своей стороны тоже напрягать начнут (действительно часто езжу).
                                          –3
                                          Сработано по принципу «святая простота». Мне одному кажется, что у них там началась своеобразная «перестройка» с запаздыванием на -дцать лет относительно РФ?
                                            0

                                            А тут еще больше ифны о том как они базы дальше сливают и спам шлют: https://www.facebook.com/story.php?story_fbid=1743357895915990&id=100007253897909

                                              +1
                                              Увы:
                                              > Sorry, this page isn't available
                                              > The link you followed may be broken, or the page may have been removed.
                                              Только у меня так?
                                              0
                                              Меня дико бесило их ценообразование и политика распределения заказов, при которой водитель сам выбирает, ехать ему или нет. Для тех, кто не в курсе: когда ты выбираешь пункт подачи и назначения, приложение показывает базовый тариф, но фишка в том, что за этот тариф вы скорее всего никуда не уедете, поэтому там есть специальное поле для увеличения цены, которое «простимулирует» водителя взять ваш заказ. В итоге а это лето я 3 раза попадал в ситуацию, когда ни за какие деньги не мог уехать.

                                              И это не считая уродского интерфейса, хреновых водителей, хреновых машин и постоянного отсутствия у них сдачи.

                                              P.S.: Уклон это сокращение от «Убер клон», кстати)

                                              Only users with full accounts can post comments. Log in, please.