Comments 18
TL;DR Выборки должны быть репрезентативными; упускать факторы плохо; учебник по эконометрике второго курса написан не просто так
К сожалению, большая часть дата саентистов ничего не слышало про эконометрику, и имеет посредственные представления о мат статистике.
Складывается впечатление, что на курсах/в универе преподают весьма ограниченный набор заученных моделей-рецептов на типовые задачи, но почти ничего не говорят про практику применения этих моделей в принятии решений в бизнесе.
Я почему-то думал, что большинство тех, кто профессионально заняты дата саенсом таки заканчивали STEM факультеты или на самый крайний случай - экономический. Там вроде как статистику должны давать, по крайней мере у нас на не самой математической экономической программе статистики было аж два года, плюс эконометрика, плюс временные ряды, плюс количественные финансы. И в итоге я не считаю, что у меня достаточная база, чтобы идти в дату. У настоящих технарей думаю лучше. Соответственно, не задумывался о проблеме существования датасаентистов настолько тёмных, чтобы обобщать гвозди с ёжиками и для которых эта статья окажется правда информативна. Может быть, был неправ, но это уже пугает.
Далеко не все STEM факультеты обучают матстатистике — например, на типичном физфаке или мехмате ее вообще может не быть в программе, как отдельного курса. Теоретикам она не нужна, экспериментаторам обычно достаточно линейной регрессии с одной переменной. Все-таки в STEM данные как правило гораздо менее шумные, чем в бизнес-задачах.
Так что экономистам, на самом деле, бывает очень хорошо в data science — если работа связана с анализом экономических данных: продажи, время проведенное на сайте и т.д. и т.п. Экономисты привыкли видеть живого человека за данными и хорошо понимают, почему модель, дающая точность в 99%, может быть неприменима на практике.
С текущим набором готовых библиотек, где руками надо только грамотно собрать пайплайн, я бы сказал, что узким местом в работе дата саентиста является именно плохое понимание пределов возможностей моделей, вытекающее в том числе из плохого понимания классической эконометрики.
Вы статистикой мерить пытаетесь
То, что ею не измеримо,
Триллионы нейронных связей
И людей друг другом любимых.
Для технической статьи слишком эмоционально, но вообще браво!
В любом случае нужно учитывать, что выигрывает только тот, кто тренд формирует, а не угугадывает.
Именно. Как во второй Матрице, когда Нео рыпнулся на Перевозчика:
Я этот мир создал. Я и правила придумал.
Чьи правила, тот и выиграл.
Статья про то, "как же меня бомбит!!!". Надеюсь, после написания вам стало легче. Литература вообще полезна, снимает неврозы. ;)
А если серьезно, помимо тех, кто знает только фит-предикт после курсов в два месяца, есть и те, кто понимает и теорию вероятности, и как в жизни реально все происходит. Рекомендую вам книги Насима Талеба, прочитаете и поймете что не один вы сомневаетесь в предиктивной аналитике.
Думал будет про мифы и реальность ИИ ...
Написано интересно. Браво.
Фактически можно было дать и такое заглавие этой статье: "Разоблачение математики с помощью житейской логикой."
Вспомнилось как учёные в СССР проводили эксперимент чтобы дать ответ на вопрос: Могут ли люди, не ходившие в школу, логически мыслить?
Для этого они задавали вопросы взрослым людям, которые в школе никогда не учились (нашли таких среди охотников на севере).
Вопросы типа: Твой сосед ходит в баню по воскресеньям. Сегодня воскресенье. Твой сосед пойдёт в баню?
Охотники, взрослые люди, вполне успешные для севера, имеющие дом, семью, детей, имущество и ружьё, но школу никогда не посещавшие, ибо не было рядом школы то, отвечали на этот каверзный вопрос учёных так: Не пойдёт сосед в баню в воскресенье ибо сосед заболел.
На основании чего учёные в СССР сделали вывод: логике аристотелевой человек учится только и только в школе, при изучении геометрии, иначе в жизни он не способен решать логические задачи, но вполне способен жить, руководствуясь житейской логикой, коя с аристотелевой логикой несовместима вовсе никак.
По поводу использования линейной алгебры о см. телрему Тихонова и многое другое из той же области. Вспомнился анекдот про прапора, у которого синус в военное время достигал 5ти :-)
Даем команду открыть позицию и ждём клининга.
Автор, это называтся клиринг. Если не разбираетесь в предмете, то не нужно использовать термины из специфической предметной области, выглядит, мягко говоря, непрофессионально.
Отличная статья! Браво! Вот только Вентцель Елена Сергеевна...
"Известно, что 1% заёмщиков не платят вовремя. Нужно создать робота, который будет с точностью 99.9% отсекать неплательщиков. Это небольшая проблема, рубить можно легко и не пущать всяких. Только вот как подсчитать количество ложно отрицательных случаев." - для этого время от времени кредитные организации проводят тестовые выдачи кредита всем без исключения заёмщикам, чтобы на тест-группе проверить, что их метод отсеивания заёмщиков по прежнему работает, и количество ложно-отрицательных по прежнему допустимо для бизнеса
время от времени кредитные организации проводят тестовые выдачи кредита всем без исключения заёмщикам,
Что-то мне подсказывает, что если отдел аналитики определил, что Васе Пуп не нужно давать кредит, а после вдруг решил проверить сам себя, то при оформлении нового кредита Вася денег не получит, так надежней и такое решение гораздо точнее подтвердит выводы и мощь аналитики аналитического отдела. Проверка способами "проверь сам себя" еще менее достоверна и только создаёт новую помеху - это если по теории.
Если всерьез, то ЦБ РФ крайне негативно относится к выдаче безвозвратных кредитов и регулярно устраивает мазафака аутодафе таким банкам ( почему-то ЦБ РФ уверен, что все рисковые и безвозвратные кредиты попадают в карманы того кто надо). Мне пришлось пересекаться с топ банкирами - это не те люди, что в угоду каких то аналитиков раздают деньги безвозвратно.
трудно не согласиться с тем, что применение любого data science оправдано только тогда, когда модель имеет смысл в той предметной области, к которой она применяется. Безусловно, любой data scientist должен досконально изучить предметную область прежде чем пытаться её моделировать.
Но что делать, если data scientist получает мягко говоря некорректные и неграмотные задачи? Как например в случае инвестиционной компании, требующей предсказания цены акции. Что должен сделать data scientist: 1. Объяснить начальству, что его заставляют заниматься некой безнадёжной алхимией, противоречащей всему аппарату финансовой математики, где аргументируется почему цена - это скорее марковский процесс (то есть прошлое можно откинуть, потому как для "предсказания" цены в будущем хватает только её значения "сейчас"), а цена "сейчас" - это и есть наилучшая оценка дисконтированной цены в будущем (аргументация автора почему это так совпадает с классической аргументацией финансовой математики почти дословно кроме разве сто употребления слова "AI")? 2. Спокойно выслушать начальство, построить модель и получить свою зарплату, с перспективой на её повышение за проявленное рвение?
Над пропастью во лжи