ChePeter 4 авг 2022 в 11:31

Применять чистый AI также опасно, как и чистый спирт

4 мин

Data Mining * Машинное обучение * Исследования и прогнозы в IT *

Recovery Mode

-9

Комментарии 10

Markscheider 4 авг 2022 в 12:02

они в ответ "дать", "не дать", "послать"

Семантическая разница между "не дать" и "послать" от меня ускользает :)

R7R 4 авг 2022 в 12:19

Но банк (банковский AI) продолжает оформлять и выдавать кредиты, ведь нет ни одной просрочки у сотрудников завода.

Сомнительно, чтобы значительное число сотрудников одного завода одновременно оформляло кредиты в одном и том же банке.

Такое возможно только тогда, когда банк очень крупный и действует в масштабах целой страны. Но в таком случае убытки банка от невозврата кредитов от работников одного завода будут компенсированы за счет других клиентов.
Поэтому никто в банке не будет отказывать в кредите не по кредитной истории, а по месту работы (которое, в случае проблем, клиент может поменять).

(о глобальных кризисах речь в статье не идет, их не рассматриваем :)

Markscheider 4 авг 2022 в 12:46

Сомнительно, чтобы значительное число сотрудников одного завода одновременно оформляло кредиты в одном и том же банке

Такое часто бывает, если в этом банке у предприятия - зарплатный проект

R7R 4 авг 2022 в 12:56

Такое часто бывает, если в этом банке у предприятия — зарплатный проект

Так было лет… цать назад.
Сейчас же 90% сами выбирают для себя основной банк — в основном, по удобству использования системы «банк-клиент» конкретного банка и имеющимся в ней фичам.

Благо уже можно самому выбрать, на карту какого банка хочешь получать зарплату или просто привязать карту одного банка к системе «банк-клиент» другого.

Hardcoin 5 авг 2022 в 02:46

Выбрать можно, но значения по умолчанию - великая сила. Поэтому если зарплатный проект у компании есть (а это очень часто), то у 80% сотрудников есть карты одного банка, это можно об заклад биться.

R7R 5 авг 2022 в 10:05

но значения по умолчанию — великая сила

Уже нет.
Как только пользователь замечает проблему с переводом денег онлайн со своей карты на карту другого банка — он либо уходит в другой банк, либо привязывает карту к онлайн системе другого банка.
Потрясающе, но функциональность приложений трех крупных банков, которыми я регулярно пользуюсь — различается кардинально (был еще четвертый, там надо было е-токен использовать :)

ademchenko 5 авг 2022 в 09:40

Решение, в основе которого лежит только матстат, в принципе порочно.

Дело в том, что то, что вы описываете как порок это как раз красота и сила статистики. Она как раз в том, что для определения важных свойств системы ей не требуется строить ее детальную модель - то, что вы, как я понимаю, и предлагаете как итог рассуждений в статье.

К примеру, важно ли то, что дождей в последние пять лет меньше? Классическая инженерия должна построить сложнейшую модель дождей, почему они идут, откуда, что на них влияет. Статистика скажет - да, это важно, различие статистически значимо. Думайте ребята над глобальным потеплением. То есть, когда в Виллабаджо уже будут пировать, лирический герой Вашей статьи в банке все еще будет строить детальную модель заемщика.

( Если девять рыжих пришли и купили квартиру, то десятый купит квартиру с вероятностью 9/10. ! )
Это не бред, если в городе есть клуб рыжих и они там обсудили, то если 9, то там же и 10. А если клуба нет! Но этого не знает никакой ИИ. Нет в матстате такого инструмента определения зависимости из газет. С матстатом набираем знания только из накопленных ошибок !

Кстати, ровно так и в Вашем примере. Как раз статистика-то и определит, что этот самый клуб рыжих любителей покупать квартиры в городе N с какой-то вероятностью существует без необходимости для Вашего лирического героя бегать по подъездам и салонам в его поисках. Я сейчас, разумеется, не касаюсь специфических технических деталей, что выборка должна быть одинаково распределена и т.п. Если все нужные технические критерии соблюдены, то мат. стат. , не имея детальной модели укажет Вам на закономерность между рыжим цветом волос в данном городе и вероятностью покупки квартиры. "Не имея детальной модели" - это главный посыл и главная сила статистики.
Далее, вы как-то не научно рассуждаете, хотя блог вроде бы о датасайенсе. Мол, если в городе клуб рыжих, то это не бред, а если там это клуба нет, то вроде как это бред. Это откуда такая уверенность? Вы, раз отвергаете статистику, простите, построили детальную физическую модель происходящего? А, может быть, в этом городе рыжий цвет волос определяется (коррелирует) единственной национальностью, а эта национальность испокон веков занимается бизнесом по сдаче квартир, а для этого им нужно их покупать? И таких вариантов вагон и телегу можно за минуту можно нагенерировать. Статистика их распознает, а Ваш лирический герой на основе видимо "жизненного опыта" будет делать голословные (потому что нет модели и детального исследования) умозрительные заключения о том бред это или нет.

А то, что вы описали с раззорившимся заводом это называется изменением распределения исходного признака или, по-модному, "Черный лебедь". Даже если зависимость не задана явно, она все равно существует, то есть признак "место работы" в банковской модели на самом деле определяет признак "стабильность получения заработной платы" и, возможно, другие - "частота повышения зарплаты" и т.п. И вот эта случайная величина из "места работы" в "стабильность" поменяла свое распределение. Очевидно, что в случае такого изменения модель перестает работать, как и случае, когда вы в формулу 2+2=4 подставите вместо двоек тройки. Я специально привел такой простой пример, чтобы показать, что вы, в общем, сказали абсолютно тривиальную вещь с которой, в общем, понятно как бороться - постоянно дообучать модель, иметь сбалансированный набор признаков, компенсирующих такие изменения. Например, если добавить частоту обращения сотрудников за кредитом именно из этого завода, то при проблемах с зарплатой эта частота сразу повысится, что понизит вероятность выдачи кредита (если, конечно, в модели эта частота обратно зависима от вероятности выдачи кредита). Чтобы не вдаваться в технические обсуждения, которые могут возникнуть в комментариях, сразу скажу, что, да, я понимаю, что очень часто наличие таких компенсирующих признаков говорит о наличии корреляции между исходными признаками, которые, по-хорошему, должны быть независимы, но в данном случае, я просто пытаюсь за минуту "закостылить" модель с уже не очень хорошо подобранным признаком "место работы". То есть, выдача кредита, конечно, некоторым образом должна зависить от места работы, но не в таком прямом виде, а скорее должна зависить от некоторого независимого (действительно) параметра, который определяет "качество" данного места работы. Например, входным параметром может быть текущая кредиторская задолженность предприятия по заработной плате (вероятно, каким-то образом нормированная по кол-ву сотрудников и т.п., не будем углубляться в технические детали) и тогда вышеописанной автором проблемы модель иметь не будет.

В общем, скоринговая статистическая модель это не что-то, что вам сделала год назад какая-то сторонняя консалтинговая фирма и потом вы этим пользуетесь10 лет без изменений. Она требует постоянного дообучения и, как и почти во всех моделях, иногда и вмешательства оператора (человека) в ее работу - в случае "Черных лебедей". Ваш пример с обанкротившимся заводом, это, очевидно, не самый страшный Черный лебедь, который мог произойти. Тут, знаете, такие сейчас Черные лебеди, что впору создавать модели предсказания на само существование той или иной кредитной организации. Поэтому, конечно, иногда вмешательство оператора нужно. Это тоже очевидно.

В общем, вы меня извините, но для статьи с тегом "Data Mining*Машинное обучение*Исследования и прогнозы в IT* " это очень низкое техническое качество материала. Статья целиком и полностью основана на каких-то тривиальных умозрительных заключениях с цепочками if else, описываются слабые плохо продуманные модели, на основе которых делается общее заключение о порочности использования статистики.

В общем, ни о чем статья. Извините. Но заголовок кликбейтный, я и сам на него, признаюсь, купился. Даже "AI" ни к ночи упомянуто. Отмечу по этому поводу, что даже прекрасная скоринговая модель, отлично переживающая закрытия заводов, основанная на выборе признаков и обучении на их основе в современном понимании (да, мне кажется, что и в любом) не является AI. В связи с этим, чтобы не вводить читателей хабра в заблуждение предлагаю поменять заголовок, убрав оттуда AI, но сохранив кликбейтность. Думаю, отличным вариантом будет "Если бы у бабушки был..., то ей бы дали кредит".

ChePeter 7 авг 2022 в 13:57

Обожаю комментарии виртуозов софтскиллс. Только вот Вы, уважаемый, всё напутали.

У нас не "черный лебедь", а "черный ворон". Да и насчет распределения - оно не может изменится, т.к. его нет у Черного ворона и не бывает. И если чего-то нет, то и меняться оно не может.

Но за комментарий большое спасибо. Столько много букв! Наверно сильно задел, аж до "Бабушкиных ...", значит не зря был пост.

Как у классика - "Ты теоремы можешь и не знать, Но уболтать клиента ты обязан!"

Safarega 5 авг 2022 в 19:02

Для развития и захвата рынков нужно уметь давать тем, у кого нет истории. У них будущие прибыли банка!

И текущая премия менеджерам в виде откатов от клиента, т.к. основной аргумент при отказе в выдаче кредита - отсутствие кредитной истории. Даже компаниям с 20-и летним стажем работы без кредитов.

R7R 5 авг 2022 в 19:46

У них будущие прибыли банка!

Будущая прибыль банка целиком зависит от уверенности будущих клиентов в том, что они смогут вовремя вернуть кредит.
(кредитная история — это уже следствие того, насколько эта уверенность была обоснованной :)

Зарегистрируйтесь на Хабре, чтобы оставить комментарий