Комментарии 14
TL;DR Выборки должны быть репрезентативными; упускать факторы плохо; учебник по эконометрике второго курса написан не просто так
К сожалению, большая часть дата саентистов ничего не слышало про эконометрику, и имеет посредственные представления о мат статистике.
Складывается впечатление, что на курсах/в универе преподают весьма ограниченный набор заученных моделей-рецептов на типовые задачи, но почти ничего не говорят про практику применения этих моделей в принятии решений в бизнесе.
Я почему-то думал, что большинство тех, кто профессионально заняты дата саенсом таки заканчивали STEM факультеты или на самый крайний случай - экономический. Там вроде как статистику должны давать, по крайней мере у нас на не самой математической экономической программе статистики было аж два года, плюс эконометрика, плюс временные ряды, плюс количественные финансы. И в итоге я не считаю, что у меня достаточная база, чтобы идти в дату. У настоящих технарей думаю лучше. Соответственно, не задумывался о проблеме существования датасаентистов настолько тёмных, чтобы обобщать гвозди с ёжиками и для которых эта статья окажется правда информативна. Может быть, был неправ, но это уже пугает.
Далеко не все STEM факультеты обучают матстатистике — например, на типичном физфаке или мехмате ее вообще может не быть в программе, как отдельного курса. Теоретикам она не нужна, экспериментаторам обычно достаточно линейной регрессии с одной переменной. Все-таки в STEM данные как правило гораздо менее шумные, чем в бизнес-задачах.
Так что экономистам, на самом деле, бывает очень хорошо в data science — если работа связана с анализом экономических данных: продажи, время проведенное на сайте и т.д. и т.п. Экономисты привыкли видеть живого человека за данными и хорошо понимают, почему модель, дающая точность в 99%, может быть неприменима на практике.
С текущим набором готовых библиотек, где руками надо только грамотно собрать пайплайн, я бы сказал, что узким местом в работе дата саентиста является именно плохое понимание пределов возможностей моделей, вытекающее в том числе из плохого понимания классической эконометрики.
Вы статистикой мерить пытаетесь
То, что ею не измеримо,
Триллионы нейронных связей
И людей друг другом любимых.
Для технической статьи слишком эмоционально, но вообще браво!
В любом случае нужно учитывать, что выигрывает только тот, кто тренд формирует, а не угугадывает.
Именно. Как во второй Матрице, когда Нео рыпнулся на Перевозчика:
Я этот мир создал. Я и правила придумал.
Чьи правила, тот и выиграл.
Статья про то, "как же меня бомбит!!!". Надеюсь, после написания вам стало легче. Литература вообще полезна, снимает неврозы. ;)
А если серьезно, помимо тех, кто знает только фит-предикт после курсов в два месяца, есть и те, кто понимает и теорию вероятности, и как в жизни реально все происходит. Рекомендую вам книги Насима Талеба, прочитаете и поймете что не один вы сомневаетесь в предиктивной аналитике.
Думал будет про мифы и реальность ИИ ...
Написано интересно. Браво.
Фактически можно было дать и такое заглавие этой статье: "Разоблачение математики с помощью житейской логикой."
Вспомнилось как учёные в СССР проводили эксперимент чтобы дать ответ на вопрос: Могут ли люди, не ходившие в школу, логически мыслить?
Для этого они задавали вопросы взрослым людям, которые в школе никогда не учились (нашли таких среди охотников на севере).
Вопросы типа: Твой сосед ходит в баню по воскресеньям. Сегодня воскресенье. Твой сосед пойдёт в баню?
Охотники, взрослые люди, вполне успешные для севера, имеющие дом, семью, детей, имущество и ружьё, но школу никогда не посещавшие, ибо не было рядом школы то, отвечали на этот каверзный вопрос учёных так: Не пойдёт сосед в баню в воскресенье ибо сосед заболел.
На основании чего учёные в СССР сделали вывод: логике аристотелевой человек учится только и только в школе, при изучении геометрии, иначе в жизни он не способен решать логические задачи, но вполне способен жить, руководствуясь житейской логикой, коя с аристотелевой логикой несовместима вовсе никак.
По поводу использования линейной алгебры о см. телрему Тихонова и многое другое из той же области. Вспомнился анекдот про прапора, у которого синус в военное время достигал 5ти :-)
Даем команду открыть позицию и ждём клининга.
Автор, это называтся клиринг. Если не разбираетесь в предмете, то не нужно использовать термины из специфической предметной области, выглядит, мягко говоря, непрофессионально.
Отличная статья! Браво! Вот только Вентцель Елена Сергеевна...
Над пропастью во лжи