Пара мыслей об особенностях Российского Data Science



    Сегодня на Moscow Data Science Major рассказывал про приватность, этичный Data Science, и много интересных технических новинок. Люди внимательно слушали, задавали вопросы, благодарили. Но то что произошло потом было очень показательно. Об этом под катом.

    А потом был доклад про новые Российские наработки по НЛП с вот этим вот слайдом.



    Единственная поправка, которую я внес в него публикуя здесь — серые поля, закрывшие имя, фамилию, очество и адрес живого человека. Человека, чьи персональные данные данные и врачебная тайна были так спокойно и буднично расскрыты перед тысячей человек, не обременненых никакими соглашениями о неразглашении.

    И самое страшное даже не в том, что при этом был нарушен целый ряд федеральных законов (№ 323 статья 13 и №152 как минимум). Самое страшное, на мой взгляд, в том, что почти никто не увидел в этом ничего неожиданного и нехорошего…

    Мне очень хочется верить, что я не прав, и автор изменил имена и адрес этого человека, но вероятность этого мала — и клиника, и упомянутый врач реально существуют и работают в Санкт-Петербурге. И на этом слайде по чистой случайности не оказались записи МОИХ разговоров с операторами этой очень популярной в Петербурге клиники…

    Не думаю что что-либо подобное могло произойти в странах с более зрелым Data Science на западе и, скорее всего, на востоке. И никакие даже самые современные методы и технологии не смогут нам помочь, пока мы сами не повзрослеем и не начнем с уважением относится к тем людям, что доверили нам, часто даже неосознано, важную часть своей личной жизни…

    Similar posts

    Ads
    AdBlock has stolen the banner, but banners are not teeth — they will be back

    More

    Comments 24

      –8
      Это, конечно, же сильно — возмущаться раскрытием персональных данных и тут же самому их раскрывать. Теперь я знаю, что Кочеткова Ирина Александровна работает в означенной больнице, что она маммолог, что принимает по адресу такому-то.
      «пока мы сами не повзрослеем и не начнем с уважением относится к тем людям, что доверили нам, часто даже неосознано, важную часть своей личной жизни» — пора взрослеть
      +1
      Очень полезно и правильно вы указали на недочет(=серьезная ошибка) спикера.
      Но моё имхо, что такое лучше писать личным сообщением автору, с дальнейшей просьбой написать пост для передачи отрицательного опыта, может с извинениями, с ссылкой на вас.

      А так же вопрос к компаниям, которые передали записи разговоров для обучения — имели ли они право передавать(а не только записывать) их, без обезличивания.
        +6
        В целом справедливо. Но мое намерение в данном случае не обвинить спикера (его имени здесь даже нет), а донести до сообщества важность отслеживания таких кейсов в своих публичных презентациях.
        –10
        Это, конечно, верно. Не стоит нарушать законы, даже в малом. Но, заходя под кат, я ожидал чего-то более серьезного, чем «обожемой, теперь несколько программистов дата сайентистов знают, как зовут одну рандомную тетку, попытавшуюся записаться к врачу».

        И, просто чтобы быть последовательным — а вы проверяли, действительно ли это персональные данные, или же они псевдо-персональные, когда при подготовке слайда имя/фамилию звонящей в тексте заменили на случайные?)

        Статью следовало бы назвать «особенности русской небрежности», потому что такое творится не только в дата сайенс. Хотя, в общем-то, от национальности это не слишком уж зависит.
          +3
          Обычно о том что данные были откорректированны перед пбликацией всегда говорят явно, здесь такого не было. И, как я уже сказал, буду очень рад если ошибусь и имена были откорректированны.

          Ну а то, что нас часто не волнуют те самые «рандомные тетки», данные которых мы анализируем, и то что мы не видим ничего страшного в расскрытии этих данных, это, имхо, очень и очень грустно…
            0

            А слово, тест, перед "Леночка" вас не смутило? Мне кажется, что оно там не случайно, ибо остальной текст с ним вообще не связан…
            Так что это очень напоминает специальный разговор для тестирования сотрудников(например узнать как они отвечают клиентам по телефону)

              +1
              Да, я обращал внимание на это слово, но оно может быть и артефактом спич-то-текста, а автор при рассказе никак не отразил этот момент. Но это даже не главное — у меня нет намерения обвинять в чем-то автора. Появись такой слайд на том же КДД — ахнуло бы ползала, а у нас среагировали единицы, ни один из задающих вопросы не попробовал уточнить этот момент (я пытался, но организатор с микрофоном так и не добрался до нашего ряда). Основная проблема ведь не в этом конкретном слайде, а в том что лекгомысленное отношение к данным для нашего сообщества является практически нормой и именно с этим надо бороться.
          +1
          Paranoia mode/>
          На самом деле это всё (статья) партизанский маркетинг или продакт плейсмент для услуг клиники, врача или MIL, а возмущение раскрытием данных только предлог
          <paranoia mode

          А если серьёзно, ожидал увидеть статью подлинее и содержательней. Хотя тема и актуальная.
            0
            Долго думал над заголовком, итог получился немного «читерский», но как иначе привлечь внимание к теме?.. Статью подлиннее и содержательнее постараюсь организовать.
            +5

            Спасибо, что обратили внимание на такой очевидный косяк.


            Сразу отмечу, что данные здесь были полу-обезличенными — в датасете ФИО клиентов заменялись на рандомные. С адресами клиник никто не парился, никакой конфиденциальной информации в адресе клиники нет.


            Впрочем, заблюрить все фамилии и адрес клиники — самое правильное решение, которое не вызвало бы неприятного осадка у части (пусть и небольшой) аудитории. В аналогичном кейсе на одном из следующих слайдов абсолютно вся личная информация клиента (номер телефона, ФИО, даже адрес магазина) замазаны. Чтобы избежать разрастания дискуссии из-за банальной небрежности, мы добавили серых прямоугольников на слайд, скриншот которого есть в этой статье, и перезалили слайды в гугл-диск с материалами :)


            На будущее было бы клево сначала выяснять у автора вопросы про обезличенность данных, а уже потом оформлять справедливое недовольство в статью.

              0
              Спасибо большое за разъяснения! Снова подчеркну — не имел цели обвинить в чем-то автора. Именно тот факт, что странность заметила лишь малая часть аудитории расстраивает куда как больше чем сам слайд…

              Еще, на мой взгляд, можно было бы улучшить название — позитивные формулировки всегда воспринимаются лучше. Согласитесь, «Как ускорить разработку модели в 10 раз» и «Как уволить 90% датасаентистов с помощью AutoML» воспринимается очень по разному, хоть и означает примерно одно и тоже…
                +1

                Да, разумное замечание.
                Учту :)

                  –1
                  У Анастасии отличное название доклада — и провокационное, и по существу. А главное, в нем сразу видно, где деньги.

                  Уволить 90% кого-то и неистово сэкономить — это суперпозитивная формулировка.
                  Вся автоматизация, от ткацких станков до самоездящих повозок, делается именно ради этого. А если после автоматизации ещё и качество сервиса растёт — то это и деньги в квадрате, и шаг вперёд для человечества.
                    –1
                    «Вперед» или нет сильно зависит от того, куда Вы хотите придти. Конечно бороться с технологической безработицей попытками остановить развитие технологий безсмысленно, но и забывать про то, что за безликими цифрами стоят живые люди тоже нельзя. Радоваться тому что люди теряют работу достатоно странно, на мой взгляд. Хотите сделать акцент на деньги — назовите «Как сэкономить до 90% затрат на дата сайнс». А провокаций жизнь нам и так подкидывает не мало.

                    В развитых сообществах проблема технологической безработицы уже стоит в актуальной повестке дня и пока оптимальным вариантом решения считается поддержка трансфера лишающихся работы людей в новые области. А здесь ДС может очень много что предложить: и прямой трансфер через создание новых типов рабочих мест, например «МЛ-разметчик», и создание вторичных рабочих мест в около-ДС индустрии, и стимуляци развития трудоустройства по пир-ту-пир модели и много что еще. Так что, надеюсь, увидим мы и работы о том как ДС помог найти работу паре сотен тысяч человек — вот это будет заголовок.
                –4
                Общий раздрай в стране позволяет так некорректно и вызывающе вести себя муниципальным органам.
                • UFO just landed and posted this here
                    +2
                    Да, незакрытые лица и номера на Яндексе это тоже особеность Российского дата сайнс (технически это реализовать, кстати, не то чтобы большая проблема). И дело тут в первую очередь в головах тех, кто с персональными данными работает, т.е. дата сайентистов.
                    +1
                    Не думаю что что-либо подобное могло произойти в странах с более зрелым Data Science на западе и, скорее всего, на востоке

                    Вы правы, произошедшее крайне неэтично, но проблема на самом деле в другой плоскости. В конце-концов посетители конференции по тематике Data Science — едва ли не последние люди, кого могут заинтересовать личные данные пациента. А вот корень этой проблемы в отсутствии дисциплины хранения приватных данных на местах, в предприятиях, которые их собирают, обрабатывают и используют. Вообще не должна была произойти ситуация, когда инженер-разработчик мог вот так просто взять лог с личными данными с продакшена и понести его на конференцию. Даже если он сам об этом не подумал (а что с нас, с ботаников, возьмёшь? ;-), то на предприятии должен быть специалист по защите данных, который этот вопрос контролирует и регулирует.
                      0
                      Все правильно, для получения результата нужны все компоненты: и методы, и технологии, и процессы, и культура. Вообще вопрос о том как организовать работу дата сайентиста так, чтобы при этом он не мог нарушить приватность пока далек от хорошего решения, но международное сообщество активно работает в этом направлении (собственно о части полученных в это области результатов я рассказывал на мэйджоре и в постах-обзорах КДД).
                      0
                      «Этично, не этично...»
                      За халатность нужно спрашивать, желательно с ощутимыми последствиями.
                        +2
                        Сложно что-то возразить… Но я идеалист и верю в превосходство просветительских мер над репресивными. Гораздо лучше постараться неприятность предотвратить чем потом искать (чаще читай назначать) и наказывать виновных.
                        –2
                        Да и похер, нашли проблему. Можно подумать, там домашних адресов и паспортных данных пачку выложили. Еще нам не хватало этих кликуш «этичности» в науке.
                          0
                          Похоже что действительно нашли :(

                        Only users with full accounts can post comments. Log in, please.