Pull to refresh

Comments 18

TL;DR Выборки должны быть репрезентативными; упускать факторы плохо; учебник по эконометрике второго курса написан не просто так

К сожалению, большая часть дата саентистов ничего не слышало про эконометрику, и имеет посредственные представления о мат статистике.


Складывается впечатление, что на курсах/в универе преподают весьма ограниченный набор заученных моделей-рецептов на типовые задачи, но почти ничего не говорят про практику применения этих моделей в принятии решений в бизнесе.

Я почему-то думал, что большинство тех, кто профессионально заняты дата саенсом таки заканчивали STEM факультеты или на самый крайний случай - экономический. Там вроде как статистику должны давать, по крайней мере у нас на не самой математической экономической программе статистики было аж два года, плюс эконометрика, плюс временные ряды, плюс количественные финансы. И в итоге я не считаю, что у меня достаточная база, чтобы идти в дату. У настоящих технарей думаю лучше. Соответственно, не задумывался о проблеме существования датасаентистов настолько тёмных, чтобы обобщать гвозди с ёжиками и для которых эта статья окажется правда информативна. Может быть, был неправ, но это уже пугает.

Далеко не все STEM факультеты обучают матстатистике — например, на типичном физфаке или мехмате ее вообще может не быть в программе, как отдельного курса. Теоретикам она не нужна, экспериментаторам обычно достаточно линейной регрессии с одной переменной. Все-таки в STEM данные как правило гораздо менее шумные, чем в бизнес-задачах.


Так что экономистам, на самом деле, бывает очень хорошо в data science — если работа связана с анализом экономических данных: продажи, время проведенное на сайте и т.д. и т.п. Экономисты привыкли видеть живого человека за данными и хорошо понимают, почему модель, дающая точность в 99%, может быть неприменима на практике.


С текущим набором готовых библиотек, где руками надо только грамотно собрать пайплайн, я бы сказал, что узким местом в работе дата саентиста является именно плохое понимание пределов возможностей моделей, вытекающее в том числе из плохого понимания классической эконометрики.

Вы статистикой мерить пытаетесь

То, что ею не измеримо,

Триллионы нейронных связей

И людей друг другом любимых.

Для технической статьи слишком эмоционально, но вообще браво!

В любом случае нужно учитывать, что выигрывает только тот, кто тренд формирует, а не угугадывает.

Именно. Как во второй Матрице, когда Нео рыпнулся на Перевозчика:

Я этот мир создал. Я и правила придумал.

Чьи правила, тот и выиграл.

Статья про то, "как же меня бомбит!!!". Надеюсь, после написания вам стало легче. Литература вообще полезна, снимает неврозы. ;)

А если серьезно, помимо тех, кто знает только фит-предикт после курсов в два месяца, есть и те, кто понимает и теорию вероятности, и как в жизни реально все происходит. Рекомендую вам книги Насима Талеба, прочитаете и поймете что не один вы сомневаетесь в предиктивной аналитике.

Думал будет про мифы и реальность ИИ ...

Не сказать, что много чего понял, но читал с огромным удовольствием!

Написано интересно. Браво.

Фактически можно было дать и такое заглавие этой статье: "Разоблачение математики с помощью житейской логикой."

Вспомнилось как учёные в СССР проводили эксперимент чтобы дать ответ на вопрос: Могут ли люди, не ходившие в школу, логически мыслить?

Для этого они задавали вопросы взрослым людям, которые в школе никогда не учились (нашли таких среди охотников на севере).

Вопросы типа: Твой сосед ходит в баню по воскресеньям. Сегодня воскресенье. Твой сосед пойдёт в баню?

Охотники, взрослые люди, вполне успешные для севера, имеющие дом, семью, детей, имущество и ружьё, но школу никогда не посещавшие, ибо не было рядом школы то, отвечали на этот каверзный вопрос учёных так: Не пойдёт сосед в баню в воскресенье ибо сосед заболел.

На основании чего учёные в СССР сделали вывод: логике аристотелевой человек учится только и только в школе, при изучении геометрии, иначе в жизни он не способен решать логические задачи, но вполне способен жить, руководствуясь житейской логикой, коя с аристотелевой логикой несовместима вовсе никак.

По поводу использования линейной алгебры о см. телрему Тихонова и многое другое из той же области. Вспомнился анекдот про прапора, у которого синус в военное время достигал 5ти :-)

Даем команду открыть позицию и ждём клининга.

Автор, это называтся клиринг. Если не разбираетесь в предмете, то не нужно использовать термины из специфической предметной области, выглядит, мягко говоря, непрофессионально.

выходит, к остальному вопросов нет?

Отличная статья! Браво! Вот только Вентцель Елена Сергеевна...

"Известно, что 1% заёмщиков не платят вовремя. Нужно создать робота, который будет с точностью 99.9% отсекать неплательщиков. Это небольшая проблема, рубить можно легко и не пущать всяких. Только вот как подсчитать количество ложно отрицательных случаев." - для этого время от времени кредитные организации проводят тестовые выдачи кредита всем без исключения заёмщикам, чтобы на тест-группе проверить, что их метод отсеивания заёмщиков по прежнему работает, и количество ложно-отрицательных по прежнему допустимо для бизнеса

время от времени кредитные организации проводят тестовые выдачи кредита всем без исключения заёмщикам,

Что-то мне подсказывает, что если отдел аналитики определил, что Васе Пуп не нужно давать кредит, а после вдруг решил проверить сам себя, то при оформлении нового кредита Вася денег не получит, так надежней и такое решение гораздо точнее подтвердит выводы и мощь аналитики аналитического отдела. Проверка способами "проверь сам себя" еще менее достоверна и только создаёт новую помеху - это если по теории.

Если всерьез, то ЦБ РФ крайне негативно относится к выдаче безвозвратных кредитов и регулярно устраивает мазафака аутодафе таким банкам ( почему-то ЦБ РФ уверен, что все рисковые и безвозвратные кредиты попадают в карманы того кто надо). Мне пришлось пересекаться с топ банкирами - это не те люди, что в угоду каких то аналитиков раздают деньги безвозвратно.

трудно не согласиться с тем, что применение любого data science оправдано только тогда, когда модель имеет смысл в той предметной области, к которой она применяется. Безусловно, любой data scientist должен досконально изучить предметную область прежде чем пытаться её моделировать.

Но что делать, если data scientist получает мягко говоря некорректные и неграмотные задачи? Как например в случае инвестиционной компании, требующей предсказания цены акции. Что должен сделать data scientist: 1. Объяснить начальству, что его заставляют заниматься некой безнадёжной алхимией, противоречащей всему аппарату финансовой математики, где аргументируется почему цена - это скорее марковский процесс (то есть прошлое можно откинуть, потому как для "предсказания" цены в будущем хватает только её значения "сейчас"), а цена "сейчас" - это и есть наилучшая оценка дисконтированной цены в будущем (аргументация автора почему это так совпадает с классической аргументацией финансовой математики почти дословно кроме разве сто употребления слова "AI")? 2. Спокойно выслушать начальство, построить модель и получить свою зарплату, с перспективой на её повышение за проявленное рвение?

Sign up to leave a comment.

Articles