Comments 50
Юрий Владимирович Андропов на том свете прослезился...
Синий — значит студент или учитель. Красный — владелец собственности. И т.д.
1. Кто-то использует свой сотовый телефон в качестве рабочего. Иногда еще и И-Нет раздает, да еще и всему офису. Ну и вконтакт/… использовать для связи по работе — то же бывает вижу такое…
2. Я вот сейчас (судя по нахождению симок) нахожусь примерно в 3-4 местах одновременно (в тч передвигаюсь), иногда звоню сам себе и тд и тп
А всего лишь для родителей купил сим-карты оформив на себя…
3. И еще множество подобных факторов, влияющих на статистику…
это как с з/п, есть средняя, но медианная дает больше информации…
В общем там все не так просто. У меня несколько симок. Разных операторов.
Не имея объединенных данных сложно понять почему я то месяцами использую одну только на входящие, вторую на исходящие и не использую еще 3-4.
А через время начинаю иногда использовать «запасные» и совсем перестаю включать или использовать на исходящие основную…
В общем брать таких людей как я в статистику очень опасно. Результат окажется сильно искаженным, причем частично преднамеренно с моей стороны…
Результат окажется сильно искаженным
1% странных пользователей не исказят результат при всем желании, да и это исследование теоретическое, просто показали возможность нейронных сетей. Часто меняют сим карты, по моим наблюдениям, девочки школьницы или студентки, говорят много и могут поменять симку чтобы поболтать пару часиков с подругой на другом операторе. Но это и не важно, так как мгновенно засвечивается IMEI телефона, координаты, телефон вызываемый и еще по мелочам.
Но даже если будете 2 телефона иметь, все равно вас сматчат по 3-м точкам
А тут с вероятностью >50% определяется, к какой из 18 групп принадлежит человек, то есть, в этой ситуации случайный выбор давал бы всего около 5% верных ответов.
(На самом деле, скорее всего, к какой из 19 — думаю, есть ещё большая группа «кто-то непонятный»).
Используем softmax от вывода и получаем определение принадлежности к группе. Ну то есть результат тривиально приводится к виду, в котором случайный выбор дает 5% точности. С другой стороны, в предложенном мной варианте могут несколько поменять вероятности, но это не будут кардинальные изменения скорее всего.
p.s. я вполне допускаю, что вы можете быть правы, но без доаолнительных данных и выкладок делать выводы не спешил бы.
Я не говорил про эквивалентность 18 бинарных классификаторов одному 18-выходному. Я говорил что ваш вариант:
В статье говорится про 18 моделей. Она точно не просто расставляет вероятность для каждого типа?
тривиально приводится к варианту одной модели возвращающей 1 вариант (или массив отсортированный по вероятностям). А уже для этой модели вероятность угадать случайно кардинально меньше 50%.
А уже для этой модели вероятность угадать случайно кардинально меньше 50%.Это верно, но мне не очевидно, что вероятность «не случайной» по указанному методу сильно выше. Вот я кинул 18 монеток (с разной развесовкой) по 100 раз (чтобы получить 18 вероятностей) и отсортировал…
Еще раз: вы вполне можете быть правы, но мне это не очевидно.
Это действительно неочевидно, и даже больше — я и сам могу ошибаться. Монетки не сработают из-за бинарности ответа, слишком много будет одинаковых вариантов. Но это обходится если взять например кубик или еще какой-нибудь генератор случайных чисел. Смысл в том, чтобы получить вес для каждого из 18 вариантов. После этого мы можем взять максимум из них и получить генератор одного из 18 вариантов. То есть добавлением простой функции от 18 генераторов получаем генератор на 18 вариантов. Остается только два вопроса — равновероятны ли все 18 вариантов и как распределены правильные ответы. В любом случае генератором случайных чисел получить для 18 вариантов вероятность в 50% выглядит нереальным, разве что в вырожденном случае когда правильные ответы находятся только в двух категориях поровну и мы бросаем монетку только для них.
Есть два варианта:
1 — мы имеем 18 моделей, каждая из которых говорит «этот человек скорее вариант N чем все остальные» и угадывает с вероятностью 70% — это одно. Каждую из 18 моделей можно заменить «монеткой со смещенным весом». далее работает ваш алгоритм.
2 — мы имеем модель которая говорит, что «этот человек — вариант N с вероятностью 70%, а самма вероятностей для остальных вариантов — 30%».
Очевидно, что эти описания не эквивалентны. А вот насколько первая модель эффективнее брасания неравновероятного кубика — вопрос открытый (тк вероятность для каждой модели из 18 не очень высока (по сравнению с 50%), и ни одна из них не выше 50%).
Так вот, я рискну предположить, что обьединение 18 моделей по вашему адгоритму будет лучше кубика не более, чем каждая из моделей в отдельности лучше монетки. При этом я утверждаю, что бинарность монетки не является проблемой, тк можно кинуть ее 10, 100 и более раз, получив вещественную вероятность (которую потом можно подать на вход вашего алгоритма).
— Речь не только о звонках, сколько о регистрации местоположения сотового (необходимой для обеспечения абонента связью, в т.ч.).
Использование мессенджеров _никак_ не влияет на собираемую т.о. статистику.
Прочесть статью весьма интересно, т.к. есть и комментарии (в конце статьи), что позволяют взглянуть на описываемое с других ракурсов. И благодаря этому получить общую картину, что будет ближе к действительности.
«Будет выявлять незарегистрированных безработных, которые укрываются от налоговой инспекции»
— Сколько безработных не знал (и сам иногда бываю таковым, кстати), никто из них, по имеющейся у меня информации, и не думал как-то регистрироваться в налоговой.
Задача налоговиков — собирать поборы (называемые «обязательный безвозмездный платёж в пользу гос-ва»).
И как это связано с занятостью?
Пойму, если речь именно о налоге на тунеядство.
У реально безработных (кто не оформлен официально, и не ездит, работая на повременке), м.б. и шабашки.
Зная, что такое мат.статистика, хочется сделать замечание (автору статьи), что позволяет себе весьма вольготно использовать отдельные понятия.
Как пример:
«Обучение и тестирование осуществлялись с распределением данных 75% и 25%.»
Речь, как полагаю, о величинах доверительной вероятности (альфа) и 1-альфа.
Какое распределение используют?
Это — вопрос из числа главных.
Здесь-же — об этом ничего не говорится.
И, технические детали:
есть у меня программа, нетмонитор, что ведёт лог тех БСок (базовых станций), где регится мой сотовый.
Так вот, есть такое событие, как Cell reselection. Это когда сотовый перерегистрируется на другой БСке, сигнал от которой более мощный (т.е. связь с абонентом будет получше).
Этих смен БСок м.б. несколько за 1 минуту (даже когда мобильник неподвижен).
Причём, не всегда это (речь о новых БС) ближайшие.
Так-что, не фиксируя мощность принимаемого сигнала (от сотового), весьма ненадёжно делать заключение о неподвижности мобильной станции.
А если будете фиксировать, это уже будет попыткой, мягко выражаясь, шпионажа (за конкретным лицом).
Попробуйте предъявить ему такие данные, и он (наблюдаемый объект) запросит у вас, например, решение суда, одобрившего такой шпионаж. Сможете эти данные предоставить?
Если нет, то за факт шпионажа, скорее всего, прийдётся отвечать старшему той группы, что проводила такую разведку.
У нас есть такой закон, как конституция. Где есть разные статьи, например, 23, 24,
Ознакомьтесь, и поймёте, кто должен будет
1) идти лесом (культурно выражаясь);
2) платить компенсацию (за нарушение прав и свобод, гарантированных основным законом).
Это — если гражданину попробуют что-то предъявить (например, «охотники за тунеядцами»), основываясь лишь на журналах опСоСа (ОПератора СОтовой Связи).
Обучение и тестирование осуществлялись с распределением данных 75% и 25%.Почти наверняка тут речь идет о разбиении набора данных на учебный и тестовый.
Судя по первой, я явно клерк-трудоголик. По второй — скорее, пенсионер, а то и, прости господи, housewife
Теоретически по метаданным можно связать эти две симки с хорошей вероятностью, если вы используете их в одном телефоне или таскаете оба телефона одновременно.
Это я не беру в расчет третью симку, которая установлена в старом китайфоне, который используется в качестве навигатора и лежит обычно в бардачке машины (но, тоже, бывают исключения) ;)
Нейросеть определяет тунеядцев по метаданным сотовой сети с вероятностью 70,4%