alizar Dec 22 2016 at 12:31

Нейросеть определяет тунеядцев по метаданным сотовой сети с вероятностью 70,4%

4 min

47K

+36

Comments 50

proton17 Dec 22 2016 at 13:03

Юрий Владимирович Андропов на том свете прослезился...

Vnuchok Dec 22 2016 at 13:08

«Они следят за мной с помощью своей аппаратуры!»))))

Akon32 Dec 22 2016 at 13:32

«Они следят за мной с помощью моей аппаратуры!»((((

Ugrum Dec 22 2016 at 14:35

«Ваша аппаратура следит за вами!»

UFO landed and left these words here

gxcreator Dec 22 2016 at 20:50

*Вы — совокупность данных, имеющихся у Компании

ilansk Dec 26 2016 at 07:13

* слежение — отправка статистической информации с целью анализа и улучшения качества предоставляемых услуг

Keyten Dec 28 2016 at 11:39

* аппаратура — аппаратура

Mingun Dec 29 2016 at 16:44

* за — не против

dimkss Dec 22 2016 at 13:09

Да все просто. Тут и нейросетей не надо.
Синий — значит студент или учитель. Красный — владелец собственности. И т.д.

thatsme Dec 23 2016 at 00:38

Наконец-то общество становится цивилизованным. А раньше вот дифференциации ~~штанов~~ трафика не было! Дикарями были…

AntonSor Dec 23 2016 at 09:46

Общество, не имеющее цветовой дифференциации метаданных, не имеет цели (с)

labyrinth Dec 22 2016 at 13:45

Александр Григорьевич уже добавил статью в избранное.

fivehouse Dec 22 2016 at 13:53

Достаточно неважные звонки делать с «грязной» симкой, которую бесплатно раздают на вокзалах всем желающим (и зарегенным фиг знает на кого) и вся эти огромная дата идет туда где и должна быть.

GavriKos Dec 22 2016 at 13:58

Не везде на вокзалах так раздают симки.

rfvnhy Dec 22 2016 at 14:43

«запороть» исследования значительно проще, именно поэтому там всего и 70%…

1. Кто-то использует свой сотовый телефон в качестве рабочего. Иногда еще и И-Нет раздает, да еще и всему офису. Ну и вконтакт/… использовать для связи по работе — то же бывает вижу такое…

2. Я вот сейчас (судя по нахождению симок) нахожусь примерно в 3-4 местах одновременно (в тч передвигаюсь), иногда звоню сам себе и тд и тп
А всего лишь для родителей купил сим-карты оформив на себя…

3. И еще множество подобных факторов, влияющих на статистику…
это как с з/п, есть средняя, но медианная дает больше информации…

UFO landed and left these words here

rfvnhy Dec 22 2016 at 19:19

Вы не учитываете, что SIMками можно иногда и обмениваться! =D
В общем там все не так просто. У меня несколько симок. Разных операторов.
Не имея объединенных данных сложно понять почему я то месяцами использую одну только на входящие, вторую на исходящие и не использую еще 3-4.
А через время начинаю иногда использовать «запасные» и совсем перестаю включать или использовать на исходящие основную…

В общем брать таких людей как я в статистику очень опасно. Результат окажется сильно искаженным, причем частично преднамеренно с моей стороны…

arilou_camper Dec 22 2016 at 19:59

А зачем вы так делаете?)

stanislavkulikov Dec 23 2016 at 13:08

Справедливости ради нужно сказать, что таких людей единицы. У подавляющего большинства моих знакомых номера не менялись уже лет 5-7.

sim31r Dec 23 2016 at 14:13

Результат окажется сильно искаженным

1% странных пользователей не исказят результат при всем желании, да и это исследование теоретическое, просто показали возможность нейронных сетей. Часто меняют сим карты, по моим наблюдениям, девочки школьницы или студентки, говорят много и могут поменять симку чтобы поболтать пару часиков с подругой на другом операторе. Но это и не важно, так как мгновенно засвечивается IMEI телефона, координаты, телефон вызываемый и еще по мелочам.

DistortNeo Dec 22 2016 at 15:20

С помощью того же дата-майнинга с очень высокой вероятностью определяется принадлежность двух разных сим-карт одному человеку.

UFO landed and left these words here

Ugrum Dec 23 2016 at 09:27

И корреспонденты с левой и правой симок пересекаться не должны.

tumikosha Dec 25 2016 at 00:28

Смена симок не помогает, сигнатура-телефона постоянныя.
Но даже если будете 2 телефона иметь, все равно вас сматчат по 3-м точкам

Arcanum7 Dec 22 2016 at 14:49

А фрилансеры со скайпом вместо сотового?

Marsikus Dec 22 2016 at 16:36

К ним должно быть часто приходят СМС для авторизации на определенных сервисах, которыми пользуются премущественно фрилансеры.

vsespb Dec 22 2016 at 17:27

Нет

AntonSor Dec 22 2016 at 14:50

Теперь тунеядцы будут звонить исключительно через интернет-мессенджеры, чтобы не попасть в статистику.

tumikosha Dec 25 2016 at 00:29

А ты полагаешь мессенжеры не пасут? ;))

unxed Dec 22 2016 at 15:19

То есть, на целых 20,4% эффективнее подбрасываемой монетки?

Labunsky Dec 22 2016 at 16:33

Она просто бросает кубик 4:2

APLe Dec 22 2016 at 16:47

Монетка позволяет выбрать один вариант из двух.
А тут с вероятностью >50% определяется, к какой из 18 групп принадлежит человек, то есть, в этой ситуации случайный выбор давал бы всего около 5% верных ответов.
(На самом деле, скорее всего, к какой из 19 — думаю, есть ещё большая группа «кто-то непонятный»).

BigBeaver Dec 22 2016 at 17:31

В статье говорится про 18 моделей. Она точно не просто расставляет вероятность для каждого типа?

dimm_ddr Dec 23 2016 at 08:25

Используем softmax от вывода и получаем определение принадлежности к группе. Ну то есть результат тривиально приводится к виду, в котором случайный выбор дает 5% точности. С другой стороны, в предложенном мной варианте могут несколько поменять вероятности, но это не будут кардинальные изменения скорее всего.

BigBeaver Dec 23 2016 at 09:04

Лично мне совершенно не очевидна эквивалентность 18 бинарных классификаторов одному 18-выходному. Еще, кстати, отдельный вопрос, что у этих 18 на выходе — не равны ли они по отдельности киданию слегка разцентрованной монетки?

p.s. я вполне допускаю, что вы можете быть правы, но без доаолнительных данных и выкладок делать выводы не спешил бы.

dimm_ddr Dec 23 2016 at 14:02

Я не говорил про эквивалентность 18 бинарных классификаторов одному 18-выходному. Я говорил что ваш вариант:

В статье говорится про 18 моделей. Она точно не просто расставляет вероятность для каждого типа?

тривиально приводится к варианту одной модели возвращающей 1 вариант (или массив отсортированный по вероятностям). А уже для этой модели вероятность угадать случайно кардинально меньше 50%.

BigBeaver Dec 23 2016 at 16:43

Для этих утверждений нет данных.

А уже для этой модели вероятность угадать случайно кардинально меньше 50%.

Это верно, но мне не очевидно, что вероятность «не случайной» по указанному методу сильно выше. Вот я кинул 18 монеток (с разной развесовкой) по 100 раз (чтобы получить 18 вероятностей) и отсортировал…

Еще раз: вы вполне можете быть правы, но мне это не очевидно.

dimm_ddr Dec 26 2016 at 13:24

Это действительно неочевидно, и даже больше — я и сам могу ошибаться. Монетки не сработают из-за бинарности ответа, слишком много будет одинаковых вариантов. Но это обходится если взять например кубик или еще какой-нибудь генератор случайных чисел. Смысл в том, чтобы получить вес для каждого из 18 вариантов. После этого мы можем взять максимум из них и получить генератор одного из 18 вариантов. То есть добавлением простой функции от 18 генераторов получаем генератор на 18 вариантов. Остается только два вопроса — равновероятны ли все 18 вариантов и как распределены правильные ответы. В любом случае генератором случайных чисел получить для 18 вариантов вероятность в 50% выглядит нереальным, разве что в вырожденном случае когда правильные ответы находятся только в двух категориях поровну и мы бросаем монетку только для них.

BigBeaver Dec 26 2016 at 13:36

Не уверен, что вы поняли мою мысль.

Есть два варианта:
1 — мы имеем 18 моделей, каждая из которых говорит «этот человек скорее вариант N чем все остальные» и угадывает с вероятностью 70% — это одно. Каждую из 18 моделей можно заменить «монеткой со смещенным весом». далее работает ваш алгоритм.
2 — мы имеем модель которая говорит, что «этот человек — вариант N с вероятностью 70%, а самма вероятностей для остальных вариантов — 30%».

Очевидно, что эти описания не эквивалентны. А вот насколько первая модель эффективнее брасания неравновероятного кубика — вопрос открытый (тк вероятность для каждой модели из 18 не очень высока (по сравнению с 50%), и ни одна из них не выше 50%).

Так вот, я рискну предположить, что обьединение 18 моделей по вашему адгоритму будет лучше кубика не более, чем каждая из моделей в отдельности лучше монетки. При этом я утверждаю, что бинарность монетки не является проблемой, тк можно кинуть ее 10, 100 и более раз, получив вещественную вероятность (которую потом можно подать на вход вашего алгоритма).

unxed Dec 22 2016 at 17:41

del

Marsikus Dec 22 2016 at 16:34

Теперь СМС спам будет лучше таргетирован!

nickName0 Dec 22 2016 at 18:13

Теперь тунеядцы будут звонить исключительно через интернет-мессенджеры, чтобы не попасть в статистику.
— Речь не только о звонках, сколько о регистрации местоположения сотового (необходимой для обеспечения абонента связью, в т.ч.).
Использование мессенджеров _никак_ не влияет на собираемую т.о. статистику.

Прочесть статью весьма интересно, т.к. есть и комментарии (в конце статьи), что позволяют взглянуть на описываемое с других ракурсов. И благодаря этому получить общую картину, что будет ближе к действительности.

«Будет выявлять незарегистрированных безработных, которые укрываются от налоговой инспекции»
— Сколько безработных не знал (и сам иногда бываю таковым, кстати), никто из них, по имеющейся у меня информации, и не думал как-то регистрироваться в налоговой.
Задача налоговиков — собирать поборы (называемые «обязательный безвозмездный платёж в пользу гос-ва»).
И как это связано с занятостью?
Пойму, если речь именно о налоге на тунеядство.

У реально безработных (кто не оформлен официально, и не ездит, работая на повременке), м.б. и шабашки.

Зная, что такое мат.статистика, хочется сделать замечание (автору статьи), что позволяет себе весьма вольготно использовать отдельные понятия.
Как пример:
«Обучение и тестирование осуществлялись с распределением данных 75% и 25%.»
Речь, как полагаю, о величинах доверительной вероятности (альфа) и 1-альфа.
Какое распределение используют?
Это — вопрос из числа главных.
Здесь-же — об этом ничего не говорится.

И, технические детали:
есть у меня программа, нетмонитор, что ведёт лог тех БСок (базовых станций), где регится мой сотовый.
Так вот, есть такое событие, как Cell reselection. Это когда сотовый перерегистрируется на другой БСке, сигнал от которой более мощный (т.е. связь с абонентом будет получше).
Этих смен БСок м.б. несколько за 1 минуту (даже когда мобильник неподвижен).
Причём, не всегда это (речь о новых БС) ближайшие.
Так-что, не фиксируя мощность принимаемого сигнала (от сотового), весьма ненадёжно делать заключение о неподвижности мобильной станции.
А если будете фиксировать, это уже будет попыткой, мягко выражаясь, шпионажа (за конкретным лицом).
Попробуйте предъявить ему такие данные, и он (наблюдаемый объект) запросит у вас, например, решение суда, одобрившего такой шпионаж. Сможете эти данные предоставить?
Если нет, то за факт шпионажа, скорее всего, прийдётся отвечать старшему той группы, что проводила такую разведку.
У нас есть такой закон, как конституция. Где есть разные статьи, например, 23, 24,
Ознакомьтесь, и поймёте, кто должен будет
1) идти лесом (культурно выражаясь);
2) платить компенсацию (за нарушение прав и свобод, гарантированных основным законом).
Это — если гражданину попробуют что-то предъявить (например, «охотники за тунеядцами»), основываясь лишь на журналах опСоСа (ОПератора СОтовой Связи).

Regis Dec 22 2016 at 20:35

Обучение и тестирование осуществлялись с распределением данных 75% и 25%.

Почти наверняка тут речь идет о разбиении набора данных на учебный и тестовый.

Vjatcheslav3345 Dec 23 2016 at 08:28

Вот если рассказать о такой системе депутатам они, ошалев от радости, быстренько «поправят» законы — печальный прецедент уже имеется — это когда им про интернет рассказали:)…
(населению придётся вспоминать — каково это — жить в героическую «эпоху Штирлицев»).

ChiefMate Dec 22 2016 at 18:23

Использую две сим-карты, одна — корпоративная, на каждом новом месте работы новая, вторая — личная, и ей более десяти лет. Контакты на обеих — не пересекаются.

Судя по первой, я явно клерк-трудоголик. По второй — скорее, пенсионер, а то и, прости господи, housewife

dimm_ddr Dec 23 2016 at 08:47

Теоретически по метаданным можно связать эти две симки с хорошей вероятностью, если вы используете их в одном телефоне или таскаете оба телефона одновременно.

stanislavkulikov Dec 23 2016 at 13:21

Вы телефоны вместе носите? Перемещения входят в стандартные метаданные. Так что по перемещениям можно их связать.

ChiefMate Dec 23 2016 at 20:15

Вместе, бывает, ношу, но редко. Скажем так, по выходным и вечерам, когда с супругой, беру личный, а не рабочий. Днём в будние, когда сам — наоборот, обычно только с рабочим.
Это я не беру в расчет третью симку, которая установлена в старом китайфоне, который используется в качестве навигатора и лежит обычно в бардачке машины (но, тоже, бывают исключения) ;)

Ermako Dec 30 2016 at 14:06

Для того, чтобы правильно оценивать значимость результатов, стоило начать с описания аудитории. 76 тысяч человек из страны Южной Азии с низким уровнем дохода. Бангладеш или Непал, судя по всему.