Как стать автором
Обновить
0
0

Пользователь

Отправить сообщение
Вспомнился номер «КВН Вне Игры. Опять двойка».

Как два? У нас же стобальная система, как два?
— Ну это плохо!
— Ну плохо это 58.
— Ну это очень плохо!
— Очень плохо это 42, как же два?


Тут, заслуженная, если не двойка то тройка по стобальной системе. Из тридцати — чувство острого испанского стыда не вызвал лишь один.
Он 1956 года рождения. Сейчас ему 62. Фотография в статье — из проекта facesofopensource.com сделана в 2015 году, т.е. на ней ему 59 лет (скорее всего, именно 59, так как родился он в январе).
На практике, с тем, чтобы наши клиенты для «не нормализованного» индекса Джини использовали отдельный термин Accuracy Rate — сталкиваться не доводилось. Хотя, в литературе, с этим термином в таком смысле я сталкивался, но не придавал значения разнице в определении. Вот тут например: journal.fsv.cuni.cz/storage/1228_rezac.pdf
Любопытно, что в этой статье даже явно пишут о том, что Lorenz Curve путают с Receiver Operating Characteristic. Но, при этом, если я не запутался в их нотации, определяют её именно как зеркальную (по диагонали) ROC кривую, противопоставляя ей CAP кривую, которую называют также Lift кривой.

Вот с чем не редко приходится сталкиваться на практике, так это с тем, что представители бизнеса (не специалисты-рисковики) могут интерпретировать индекс Gini именно как accuracy модели для задачи бинарной классификации. Т.е. индекс Джини в 0.8 интерпретируют как 20 ошибок первого или второго рода из 100 случаев.
Когда приводишь «контр-пример», мол, если всего 10 процентов займов не погашаются вовремя, то даже если мы будем одобрять всем, то достигнем accuracy в 90%, тогда начинается содержательный разговор. И, нужно отметить, что представители бизнеса, на моей памяти, всегда очень радовались, уделив время и разобравшись. Вот прям, не побоюсь этого слова, именно — радовались.
Прочитав статью понял, что как и те комментаторы, которые отвечали, что формула (2) для них очевидна, я находился в заблуждении о том, что кривая Лоренца, в известном смысле эквивалентна ROC кривой. А вот Lift кривая эквивалентна кривой CAP en.wikipedia.org/wiki/Cumulative_accuracy_profile
(хотя с многозначностью термина Lift, тоже все плохо). Вы убедительно показали, что, как раз, кривая Лоенца, эквивалентна кривой CAP, а не ROC.

Проблема в том, что в той сфере, в которой индекс Джини активно используется на практике (сравнительный анализ моделей банковского скоринга) под индексом Джини (те кто об этом задумываются) понимают именно нормализованный индекс Джини. И, действительно, вычисляют его на основании ROC AUC по формуле (2), а не на основании CAP AUC.

Вопрос для меня не праздный, сталкиваюсь с ним ежедневно. Мы даже, нашу компанию, назвали GiniMachine.

Статья, конечно, помогла развеять мифы, как Вы и надеялись, но, боюсь, как в известной миниатюре xkcd про стандарты, ситуацию это, скорее, усугубило. ( xkcd.ru/927 )

С другой стороны, 30 лет назад невозможно было представить, что заблуждение по поводу именования мото-любителей и меломанов когда-нибудь удастся преодолеть…

P.S. обстоятельная статья 15 летней давности, на тему ROC и CAP, от Бундесбанка. Раньше я не понимал почему авторы избегают упоминания индекса Джини, теперь мне кажется, это не случайность. www.bundesbank.de/Redaktion/EN/Downloads/Publications/Discussion_Paper_2/2003/2003_10_01_dkp_01.pdf?__blob=publicationFile
Очень убедительно, и подробно над ответом на этот вопрос рассуждает Лю Цы Синь. В цикле «Память о прошлом Земли». ru.wikipedia.org/wiki/Лю_Цысинь
А вот, Jeremy Howard, говорит, что именно участвуя в соревнованиях он продвинулся в теме, гораздо сильнее чем любыми иными способами. youtu.be/Q0z-l2KRYFY?t=3547

Его, конечно, сложно считать беспристрастным в этом вопросе, он даже возглавлял Kaggle какое-то время. Но его достижения в сфере анализа данных — неоспоримы. И не только «спортивные» но и коммерческие и академические. И мне он кажется искренне желающим «поделиться рабочим рецептом».
Вот это я понимаю — популяризация науки! Это вам не батисферу со стратосферой путать. Вершина жанра.
Спасибо! Ждем следующую часть. А потом и другие материалы, пожалуйста :-)
Спасибо за увлекательную статью.
Примечательно (как любит повторять автор), что технология содержит средства, которые могли бы существенно затруднить проведение подобной атаке (последнюю подпись, можно было бы сверять со значением на сервере), но она почему-то не задействована даже в заведомо online решениях.
Может ли у этого быть рациональное объяснение?
Например, общий процент фрода, и его «стоимость» так малы, что не превышают стоимости дополнительных серверных мощностей необходимых для проверки всех транзакций (маловероятно).
Или — отключение этой проверки существенно уменьшает время транзакции = увеличивает пропускную способность, что может быть важно в часы пик (более вероятно).
Уязвимость используется самими разработчиками (как-то неприятно про это даже думать).
А я решил, что это такой юмор разработчиков: за поездку на «тройке» расплачиваться, «полушками» :-).
По тексту статьи может показаться, что 6.001 (со schema) закончили преподавать совсем недавно. Однако, последний раз 6.001 читали MIT в 2007/2008м году. Уже 7 лет как вместо него читают 6.01 (c python).
Судя по тому, что написано в abstract и conclusions того исследования на которое ссылается автор заметки, оно вовсе не «говорит, что программирование — это вполне женское дело». Если автор это исследования даже не читал, то я его понимаю, я тоже больше чем abstract и conclusions не смог себя заставить прочесть. А вот если читал но решил переврать, и «натянуть сову на глобус», то это недостойно.

P.S. Сам я настолько не против женщин программисток, что даже женат на программистке (хотя в свете последних тенденций, гетеросексуального брака, наверное, принято будет стыдиться)
Хотя возможно имелся ввиду стим-панк, или дизель-панк. Но есть и яркие примеры именно киберпанка с дирижаблями. «Алмазный Век» Нила Стивенсона, например. К слову дирижабли там вакуумные, что стало возможным благодаря нано-технологиям которые позволили построить оболочку нужной прочности.
Отличное сочетание лаконичности и содержательности. Неизбежная при этом поверхность ничуть не вредит восприятию. Можно рекомендовать эту лекцию как «введение» тем кому курс «большого» ШАДа по машинному обучению, представляется излишне строгим, формальным, и математически «насыщенным».
К вопросу о том, что автор не первый кто не может молчать о том как обижают WM в Украине. С момента «ситуации с WM» и по сей день, чуть ли не под каждой статьей в укрнете о платежных системах, встречается один и тот-же буква в букву комментарий (погуглите):
Украинский закон об электронных платежных системах фактически написан под одну систему – Globalmoney, которая принадлежит семье Президента. Webmoney и аналоги им, как кость в горле! Друзья!!! поддержите официально WebMoney UA facebook.com/webmoney.ua


Как по мне, так хрен редьки не слаще. А в случае с Webmoney даже иллюзии возможности контроля эмиссии нет (а в Украине закон, AFAIK определяет порядок эмиссии электронных денег, должна быть привяка к банку, и контроль со стороны нацбанка). Рядовому пользователю это всё, конечно, безразлично, главное чтобы работало, и проценты были поменьше.
Я не спорю с выводами сделанными автором статьи. Они вполне себе похожи на правду. И автор, не первый кто «не может молчать» на эту тему. Но, насколько мне известно, тезис с которого начинается статья, совсем не соответствует действительности. Оборот электронных денег в Украине, насколько мне известно довольно четко регламентирован. Надеюсь, Украинцы, знакомые с локальными правовыми базами, помогут найти конкретные ссылки. AFAIK, есть нормативные документы определяющие и понятие оператора электронных денег, и агента, и торговца, и даже «электронного кошелька» называемого по-украински забавным, на мой слух, словом «гаманець» :-) Знаю я это, в частности, потому, что слышал про то что есть нормативные акты, которые в частности регламентируют лимит на транзакцию с электронными деньгами и на максимальный размер кошелька. Что то вроде UAH8000 в обоих случаях. Если бы автор проштудировал бы этот вопрос, это на мой взгляд могло бы серьёзно улучшить статью.
ну можно будет хабр читать :-). Кое что, конечно придется пропускать, ну так это и так нормально. :-) Отмечу, что и для многих «биологических людей» основной инструмент «понимания происходящего» это что-нибудь читать.
Мне как раз описанная в книге последовательность кажется правдоподобной и даже естественной — сперва для таких «дигиэнтов» будут реальность симулировать (это гораздо удобнее, в том числе с экспериментальной точки зрения), а уже потом, возможно, как следующий и в чем то даже «незначительный» шаг, они в качестве входной информации будут получать не симуляцию, а трансляцию из физической реальности. Причем, будет ли этот «двух-литровый нейрочип» лежать в банке на складе, выделяться в виде области в 100 литровой платформе нейровиртуализации, или же будет вместе насажен на «тело» с датчиками транслирующими информацию из физической реальности, мне кажется совершенно не важным, в том числе с точки зрения самосознания. Убежден, что если бы реальный мозг удалось разместить где то «на складе» связав надежным каналом связи с «датчиками» тела, на самосознание это бы вообще говоря не влияло, в конце-концов эмпирически это было бы не так просто узнать.
К сожалению, не уверен в наличии русского перевода, но тем не менее хочу порекомендовать: в книге Тэда Чана The Lifecycle of Software Objects вопросы которые задает DankoUA освящаются с потрясающим, я бы сказал «бытовым» реализмом. Вопрос о том «возможно ли» как-то отпадает, остается только вопрос «когда». И вот судя по этой новости, уже во вполне обозримом будущем.
наскучило текущее время — просыпайся на 1 минуту в день, проверить новости, и уходи дальше в suspend :)

Если просыпаться на минуту в сутки, то получиться ускорение в 60*24=1440 раз. А тут предлагается готовое решение, которое ускоряет всё вокруг в 1542 раза, заодно и «непрерывность сознания» обеспечивается как кто-то ниже просил :-)
Остроумное замечание. Но, ведь множество ноутбуков имеющих только графику от интел и hdmi точно не пустое? А смотреть фильм с ноутбука на панели — вполне типовой сценарий использования.
1

Информация

В рейтинге
Не участвует
Зарегистрирован
Активность