Pull to refresh

Comments 50

Юрий Владимирович Андропов на том свете прослезился...

«Они следят за мной с помощью своей аппаратуры!»))))

«Они следят за мной с помощью моей аппаратуры!»((((

«Ваша аппаратура следит за вами!»
UFO just landed and posted this here
*Вы — совокупность данных, имеющихся у Компании
* слежение — отправка статистической информации с целью анализа и улучшения качества предоставляемых услуг
* аппаратура — аппаратура
Да все просто. Тут и нейросетей не надо.
Синий — значит студент или учитель. Красный — владелец собственности. И т.д.
Наконец-то общество становится цивилизованным. А раньше вот дифференциации штанов трафика не было! Дикарями были…
Общество, не имеющее цветовой дифференциации метаданных, не имеет цели (с)
Александр Григорьевич уже добавил статью в избранное.
Достаточно неважные звонки делать с «грязной» симкой, которую бесплатно раздают на вокзалах всем желающим (и зарегенным фиг знает на кого) и вся эти огромная дата идет туда где и должна быть.
Не везде на вокзалах так раздают симки.
«запороть» исследования значительно проще, именно поэтому там всего и 70%…

1. Кто-то использует свой сотовый телефон в качестве рабочего. Иногда еще и И-Нет раздает, да еще и всему офису. Ну и вконтакт/… использовать для связи по работе — то же бывает вижу такое…

2. Я вот сейчас (судя по нахождению симок) нахожусь примерно в 3-4 местах одновременно (в тч передвигаюсь), иногда звоню сам себе и тд и тп
А всего лишь для родителей купил сим-карты оформив на себя…

3. И еще множество подобных факторов, влияющих на статистику…
это как с з/п, есть средняя, но медианная дает больше информации…
UFO just landed and posted this here
Вы не учитываете, что SIMками можно иногда и обмениваться! =D
В общем там все не так просто. У меня несколько симок. Разных операторов.
Не имея объединенных данных сложно понять почему я то месяцами использую одну только на входящие, вторую на исходящие и не использую еще 3-4.
А через время начинаю иногда использовать «запасные» и совсем перестаю включать или использовать на исходящие основную…

В общем брать таких людей как я в статистику очень опасно. Результат окажется сильно искаженным, причем частично преднамеренно с моей стороны…
Справедливости ради нужно сказать, что таких людей единицы. У подавляющего большинства моих знакомых номера не менялись уже лет 5-7.
Результат окажется сильно искаженным

1% странных пользователей не исказят результат при всем желании, да и это исследование теоретическое, просто показали возможность нейронных сетей. Часто меняют сим карты, по моим наблюдениям, девочки школьницы или студентки, говорят много и могут поменять симку чтобы поболтать пару часиков с подругой на другом операторе. Но это и не важно, так как мгновенно засвечивается IMEI телефона, координаты, телефон вызываемый и еще по мелочам.
С помощью того же дата-майнинга с очень высокой вероятностью определяется принадлежность двух разных сим-карт одному человеку.
UFO just landed and posted this here
И корреспонденты с левой и правой симок пересекаться не должны.
Смена симок не помогает, сигнатура-телефона постоянныя.
Но даже если будете 2 телефона иметь, все равно вас сматчат по 3-м точкам
А фрилансеры со скайпом вместо сотового?
К ним должно быть часто приходят СМС для авторизации на определенных сервисах, которыми пользуются премущественно фрилансеры.
Теперь тунеядцы будут звонить исключительно через интернет-мессенджеры, чтобы не попасть в статистику.
А ты полагаешь мессенжеры не пасут? ;))
То есть, на целых 20,4% эффективнее подбрасываемой монетки?
Она просто бросает кубик 4:2
Монетка позволяет выбрать один вариант из двух.
А тут с вероятностью >50% определяется, к какой из 18 групп принадлежит человек, то есть, в этой ситуации случайный выбор давал бы всего около 5% верных ответов.
(На самом деле, скорее всего, к какой из 19 — думаю, есть ещё большая группа «кто-то непонятный»).
В статье говорится про 18 моделей. Она точно не просто расставляет вероятность для каждого типа?

Используем softmax от вывода и получаем определение принадлежности к группе. Ну то есть результат тривиально приводится к виду, в котором случайный выбор дает 5% точности. С другой стороны, в предложенном мной варианте могут несколько поменять вероятности, но это не будут кардинальные изменения скорее всего.

Лично мне совершенно не очевидна эквивалентность 18 бинарных классификаторов одному 18-выходному. Еще, кстати, отдельный вопрос, что у этих 18 на выходе — не равны ли они по отдельности киданию слегка разцентрованной монетки?

p.s. я вполне допускаю, что вы можете быть правы, но без доаолнительных данных и выкладок делать выводы не спешил бы.

Я не говорил про эквивалентность 18 бинарных классификаторов одному 18-выходному. Я говорил что ваш вариант:


В статье говорится про 18 моделей. Она точно не просто расставляет вероятность для каждого типа?

тривиально приводится к варианту одной модели возвращающей 1 вариант (или массив отсортированный по вероятностям). А уже для этой модели вероятность угадать случайно кардинально меньше 50%.

Для этих утверждений нет данных.
А уже для этой модели вероятность угадать случайно кардинально меньше 50%.
Это верно, но мне не очевидно, что вероятность «не случайной» по указанному методу сильно выше. Вот я кинул 18 монеток (с разной развесовкой) по 100 раз (чтобы получить 18 вероятностей) и отсортировал…

Еще раз: вы вполне можете быть правы, но мне это не очевидно.

Это действительно неочевидно, и даже больше — я и сам могу ошибаться. Монетки не сработают из-за бинарности ответа, слишком много будет одинаковых вариантов. Но это обходится если взять например кубик или еще какой-нибудь генератор случайных чисел. Смысл в том, чтобы получить вес для каждого из 18 вариантов. После этого мы можем взять максимум из них и получить генератор одного из 18 вариантов. То есть добавлением простой функции от 18 генераторов получаем генератор на 18 вариантов. Остается только два вопроса — равновероятны ли все 18 вариантов и как распределены правильные ответы. В любом случае генератором случайных чисел получить для 18 вариантов вероятность в 50% выглядит нереальным, разве что в вырожденном случае когда правильные ответы находятся только в двух категориях поровну и мы бросаем монетку только для них.

Не уверен, что вы поняли мою мысль.

Есть два варианта:
1 — мы имеем 18 моделей, каждая из которых говорит «этот человек скорее вариант N чем все остальные» и угадывает с вероятностью 70% — это одно. Каждую из 18 моделей можно заменить «монеткой со смещенным весом». далее работает ваш алгоритм.
2 — мы имеем модель которая говорит, что «этот человек — вариант N с вероятностью 70%, а самма вероятностей для остальных вариантов — 30%».

Очевидно, что эти описания не эквивалентны. А вот насколько первая модель эффективнее брасания неравновероятного кубика — вопрос открытый (тк вероятность для каждой модели из 18 не очень высока (по сравнению с 50%), и ни одна из них не выше 50%).

Так вот, я рискну предположить, что обьединение 18 моделей по вашему адгоритму будет лучше кубика не более, чем каждая из моделей в отдельности лучше монетки. При этом я утверждаю, что бинарность монетки не является проблемой, тк можно кинуть ее 10, 100 и более раз, получив вещественную вероятность (которую потом можно подать на вход вашего алгоритма).
Теперь СМС спам будет лучше таргетирован!
Теперь тунеядцы будут звонить исключительно через интернет-мессенджеры, чтобы не попасть в статистику.
— Речь не только о звонках, сколько о регистрации местоположения сотового (необходимой для обеспечения абонента связью, в т.ч.).
Использование мессенджеров _никак_ не влияет на собираемую т.о. статистику.

Прочесть статью весьма интересно, т.к. есть и комментарии (в конце статьи), что позволяют взглянуть на описываемое с других ракурсов. И благодаря этому получить общую картину, что будет ближе к действительности.

«Будет выявлять незарегистрированных безработных, которые укрываются от налоговой инспекции»
— Сколько безработных не знал (и сам иногда бываю таковым, кстати), никто из них, по имеющейся у меня информации, и не думал как-то регистрироваться в налоговой.
Задача налоговиков — собирать поборы (называемые «обязательный безвозмездный платёж в пользу гос-ва»).
И как это связано с занятостью?
Пойму, если речь именно о налоге на тунеядство.

У реально безработных (кто не оформлен официально, и не ездит, работая на повременке), м.б. и шабашки.

Зная, что такое мат.статистика, хочется сделать замечание (автору статьи), что позволяет себе весьма вольготно использовать отдельные понятия.
Как пример:
«Обучение и тестирование осуществлялись с распределением данных 75% и 25%.»
Речь, как полагаю, о величинах доверительной вероятности (альфа) и 1-альфа.
Какое распределение используют?
Это — вопрос из числа главных.
Здесь-же — об этом ничего не говорится.

И, технические детали:
есть у меня программа, нетмонитор, что ведёт лог тех БСок (базовых станций), где регится мой сотовый.
Так вот, есть такое событие, как Cell reselection. Это когда сотовый перерегистрируется на другой БСке, сигнал от которой более мощный (т.е. связь с абонентом будет получше).
Этих смен БСок м.б. несколько за 1 минуту (даже когда мобильник неподвижен).
Причём, не всегда это (речь о новых БС) ближайшие.
Так-что, не фиксируя мощность принимаемого сигнала (от сотового), весьма ненадёжно делать заключение о неподвижности мобильной станции.
А если будете фиксировать, это уже будет попыткой, мягко выражаясь, шпионажа (за конкретным лицом).
Попробуйте предъявить ему такие данные, и он (наблюдаемый объект) запросит у вас, например, решение суда, одобрившего такой шпионаж. Сможете эти данные предоставить?
Если нет, то за факт шпионажа, скорее всего, прийдётся отвечать старшему той группы, что проводила такую разведку.
У нас есть такой закон, как конституция. Где есть разные статьи, например, 23, 24,
Ознакомьтесь, и поймёте, кто должен будет
1) идти лесом (культурно выражаясь);
2) платить компенсацию (за нарушение прав и свобод, гарантированных основным законом).
Это — если гражданину попробуют что-то предъявить (например, «охотники за тунеядцами»), основываясь лишь на журналах опСоСа (ОПератора СОтовой Связи).
Обучение и тестирование осуществлялись с распределением данных 75% и 25%.
Почти наверняка тут речь идет о разбиении набора данных на учебный и тестовый.
Вот если рассказать о такой системе депутатам они, ошалев от радости, быстренько «поправят» законы — печальный прецедент уже имеется — это когда им про интернет рассказали:)…
(населению придётся вспоминать — каково это — жить в героическую «эпоху Штирлицев»).
Использую две сим-карты, одна — корпоративная, на каждом новом месте работы новая, вторая — личная, и ей более десяти лет. Контакты на обеих — не пересекаются.

Судя по первой, я явно клерк-трудоголик. По второй — скорее, пенсионер, а то и, прости господи, housewife

Теоретически по метаданным можно связать эти две симки с хорошей вероятностью, если вы используете их в одном телефоне или таскаете оба телефона одновременно.

Вы телефоны вместе носите? Перемещения входят в стандартные метаданные. Так что по перемещениям можно их связать.
Вместе, бывает, ношу, но редко. Скажем так, по выходным и вечерам, когда с супругой, беру личный, а не рабочий. Днём в будние, когда сам — наоборот, обычно только с рабочим.
Это я не беру в расчет третью симку, которая установлена в старом китайфоне, который используется в качестве навигатора и лежит обычно в бардачке машины (но, тоже, бывают исключения) ;)
Для того, чтобы правильно оценивать значимость результатов, стоило начать с описания аудитории. 76 тысяч человек из страны Южной Азии с низким уровнем дохода. Бангладеш или Непал, судя по всему.
Only those users with full accounts are able to leave comments. Log in, please.