kruegger Apr 11 2019 at 14:03

Профессиональная деформация дата саентистов

14 min

36K

Open Data Science corporate blogData Mining*IT careerBrainPopular science

+63

Comments 36

ChePeter Apr 11 2019 at 14:55

Иностранные источники упоминают такую забавную штуку: помимо интонаций повествовательной, восклицательной и вопросительной в русском языке имеется также «интонация советской учительницы». Видимо, задолбательная. Это тоже часть деформации.

lurkmore

fivehouse Apr 11 2019 at 14:58

Самое главное искажение в сознании дата саентистов это не желание рассматривать вопрос на котором базируется почти все в их деятельности. Это доказательства того, что модели построенные на данных предыдущих периодов подойдут для данных из будущих периодов. При полном не понимании структуры рассматриваемой области. Пока подход чисто веревочно-палочный. Типа, раз работает на тестовом наборе данных, то будет работать и в будущем. Особенно смешно выглядит такой подход для временных рядов.

Ermit Apr 11 2019 at 15:22

Если все модели не верны, но могут быть полезными, не имеет ли смысл сосредоточить внимание на критериях и условиях этой полезности, а не обсуждении видов модельной неверности?

brom_portret Apr 11 2019 at 19:38

На мой взгляд, критерий полезности — личное счастье и гармония отдельного человек.

Возьмем например следующую цитату (Чехов «Татарин в ссылке»)

«Я, братуша, не мужик простой, не из хамского звания, а дьячковский сын и, когда на воле жил в Курске, в сюртуке ходил, а теперь довел себя до такой точки, что могу голый на земле спать и траву жрать. И дай бог всякому такой жизни. Ничего мне не надо и никого я не боюсь, и так себя понимаю, что богаче и вольнее меня человека нет. „

Модель хорошая, человеку в ней збс и зла некому не делает. ОК.

Ermit Apr 11 2019 at 19:41

Нет, конечно. Критерий полезности всегда находится в постановке задачи, модель должна ей соответствовать. Если вы передвигаете мебель по квартире, то вам не нужна модель квантовых эффектов и даже представление о том, что Земля — геоид. Поэтому абстрактные рассуждения о data science вообще страдают излишней поэтичностью и бесполезны. Ведь задача не поставлена… )))

brom_portret Apr 11 2019 at 19:44

Понимая, что полезность понятние относительное (полезно для кого? общества, животных, грибов, whatever, россии, америки, путина), я предпочитаю полезность оценивать по личному счастью человека. Живет, радуется, зла не делает — модель ок :)

Ermit Apr 11 2019 at 19:48

То есть по вашим представлениям идеал моделей — это любые модели для идиотов… )

brom_portret Apr 11 2019 at 19:57

Это почему вы так решили и что вообще такое идеал?
я скорее имею в виду, что любая модель которая делает человека счастливым, способным радоваться новому дню, солнышку и рассвету каждый минуту своего существования и при этом не делать плохо другим людям — хороша и полезна.

Ermit Apr 11 2019 at 20:00

Я так решил потому, что идиоты и дураки — это самые счастливые люди. Может быть поэтому им модели вообще не нужны. ))) Мне трудно себе представить инженера, который создает модель, например, инерциальной навигации, для того, чтобы радоваться солнышку и имеет этот критерий считает базовым в определении качества этой модели… )))

brom_portret Apr 11 2019 at 20:23

Я ниже уже писал. Под моделью я понимаю вообще все ваши знания о мире вокруг. И то что вы видите это ведь не то что есть на самом деле, а тоже некая модель у вас в голове.

>>Я так решил потому, что идиоты и дураки — это самые счастливые люди.
Попробуйте смотреть на вещи более относительно что-ли. Есть дураки, есть умники. Одним от природы дано одно, другим может что-то другое, а может ничего. Грубо говоря исходные данные железа на котором крутится модель разные и это частично определяет модель. И при определенных условиях модель близкую к истине дураку не усвоить. Никак. И наоборот тоже. Так что в таком случае считать хорошей моделью?

Aqarus Apr 11 2019 at 15:38

Почитайте на досуге про такую характеристику личности, как открытость опыту, openness.
Там всё гораздо проще, без вот этого налёта элитарности и профессиональной деформации.

kruegger Apr 11 2019 at 15:38

Спасибо, обязательно почитаю.

Grenvud Apr 11 2019 at 15:39

kruegger, спасибо, Канеман всегда в тему.

Вспомнилось в связи с темой профдеформации.

Вопрос: Сколько будет дважды два?
Система 1: Четыре!
Система 2: А мы покупаем или продаём?

А какие недостатки Вы бы назвали у дата-саентистов?

Например, я часто перевожу и иногда нужное слово легче вспомнить на английском, а не на русском. Хотя должно быть наоборот, поскольку русский — родной язык.

kruegger Apr 11 2019 at 15:47

Мне сложно ответить насчет недостатков, но, наверное, занудство )

Grenvud Apr 12 2019 at 08:14

Плюс за самоиронию :)

goodok Apr 11 2019 at 15:54

«человеку нужна модель окружающего мира, адекватно решающая его текущие задачи.»
Почему только человеку? Животным тоже надо. В процессе эволюции от скинноровских созданий как минимум до попперовких дошли (http://www.psylib.ukrweb.net/books/dennd01/txt04.htm)

brom_portret Apr 11 2019 at 19:40

Есть версия что в модели животного нет понятия времени. Они не прогнозируют что произойдет завтра или через год

goodok Apr 13 2019 at 23:49

Возможно. Но скорее всего просто разный горизонт планирования и чёткой границы между животными и людьми нет. Глядя на некоторых людей, кстати, сомневаюсь что они прогнозирут что с ними произойдёт через год или через 10 лет.

Tereshkov Apr 11 2019 at 16:11

Пытаюсь понять, почему такая продуманная статья вызывает такое неустранимое раздражение. Категоричный тон, невзирая на disclaimer? Попытка приписать data scientist'ам какие-то особые качества, которые с той же вероятностью выработаются (или не выработаются) у любого инженера, физика и вообще естествоиспытателя? Размытие понятия об истине и причинно-следственных связях? Добровольный отказ от поиска фундаментальных закономерностей в угоду статистическим? И наконец, «Миром правит случай» — не есть ли это главный (и вовсе не безвредный) след профессиональной деформации, о котором столь красноречиво свидетельствует статья?

brom_portret Apr 11 2019 at 19:40

Не соотвествует вашей модели, отсюда и раздражение

Tereshkov Apr 11 2019 at 19:59

Конечно, не соответствует. Я никогда и не отрицал, что сам пользуюсь лишь моделями — и как исследователь, и как человек. Но судя по вашему возражению, для вас все модели чуть ли не равноправны, а понятие истины исключается. Для меня оно остаётся — пусть и не как свойство какой-то отдельной модели, но как предел, к которому должна стремиться последовательность моделей.
Вашим аргументом можно объяснить вообще всё. Это верный признак того, что фактически им нельзя объяснить ничего.

brom_portret Apr 11 2019 at 20:15

Складывается ощущение что мы по-разному понимаем понятие «модель» из статьи.
Мир существует отдельно. Тот мир который воспринимаете вы, глазами, ушами и есть модель.
Далее эту модель дополняют ваши знания, например что земля кругля, а зеленые абрикосы — кислые. Вот это все вместе, включая все ваши знания о мире, о людях и есть модель про которую мы говорим, а не про те разные модели которыми вы пользуетесь.

Или вот например вера или не вера в бога — это часть этой модели, такое же как знание что земля круглая.

Теперь подойдем к вопросу истины. Допустим, что критерий истинности — это насколько близка модель к реальности и непротиворечива, при этом «реальность» это, в том числе понимание, того как собственно вы устроены, в частности как устроен мозг и что такое «сознание» и что такое «я» и что такое «смысл жизни» (если он, конечно, не является когнитивным искажением, а ведь скорее всего является). Мы к сожалению об всем этом еще знаем очень мало, так что говорить об истинности на данном этапе развития человечества не приходится вообще.

P.S. Что такое истина? 100 лет назад истина была другая, с чего вы взяли что сейчас мы сильно ближе? Как вы думаете, что будут думать об истинности нашей модели наши потомки, скажем, через 1000 лет?

Tereshkov Apr 11 2019 at 20:42

Я под моделью понимаю то же самое, что и вы (или по крайней мере ту часть большой модели, которая прямо относится к тому или иному делу). И я предлагаю смотреть на истину не как на факт, а как на асимптоту; не как на достижение, а как на пожелание. Что касается понятий об истинности через 1000 лет, то я думаю, что «асимптотическое» понимание истины и принцип соответствия позволят нам не выглядеть глупо в глазах потомков.

Далее, всегда, когда есть возможность, следует предпочесть модель концептуальную, а не статистическую, и не ссылаться на случай, который якобы «правит миром». Голая статистика без проникновения в суть явления — последнее пристанище, жест отчаяния, который уместен лишь тогда, когда мы капитулируем перед сложностью явления. Такова, к сожалению, сейчас психология, примеры из которой вы приводите. Такой же часто бывает медицина, что ещё печальнее. Гордиться здесь нечем. Это лишь свидетельство нашей слабости.

brom_portret Apr 11 2019 at 21:03

Ах, вы против именно статистического подхода. Я не увидел в статье идеи что статистика это то из чего стоит исходить. Я увидел только то, что автор полагает что во многим миром правят случайности и человек склонен переоценивать упорядоченность и собственный контроль своей жизни. Грубо говоря объектов дофига, связей между ними тоже, полных исходных данных нет, ресурсов для анализа тоже не дофига, но вы по прежнему считаете что управляете своей жизнью (это примерно то, над чем смеялся Воланд у Булгакова). Так что статистический подход, на мой взгляд, в данном случае вполне может быть уместен.

brom_portret Apr 11 2019 at 21:16

насчет истинности, ну есть например психология, она вообще использует крайне приближенные модели без понимания как на самом деле устроен объект моделирования (хотя это не значит что они не работают). При этом (повторюсь) мы вообще не знаем что такое сознание. Кроме того, модель включает в себя например вопрос как вообще надо жить. И вот это все, лет скажем через 100 лет, на мой взгляд, отправится на свалку (техническая сингулярность не за горами).

defuz Apr 11 2019 at 17:33

сегодняшняя неудача увеличивает вероятность нашего успеха завтра

Это пасхалка в статье или когнитивное искажение у автора?

ChePeter Apr 11 2019 at 18:43

Почему только автора?
Публикация в блоге сообщества, это же «апрельские тезисы», традиция уже.

brom_portret Apr 11 2019 at 19:42

Спасибо большое за статью. Во многом близко к моей картине мира, хотя я и не data scientist.

balezz Apr 11 2019 at 20:24

Хорошая статья, только много букв. Настоящий DS то знает оптимальную длину статьи на хабре ;-)

AcckiyGerman Apr 11 2019 at 23:45

А вещества, расширяющие сознание, в терминах данной статьи что делают?
Сбрасывают веса временно?

Vinchi Apr 12 2019 at 00:50

Ансамбли дополняют.

MagicWolf Apr 17 2019 at 11:58

Регуляризируют. :)

iingvaar Apr 12 2019 at 11:45

Дата сайентист понимает все вышеизложенное и не парится, если попадает в т.н. “Черную полосу”,

Конкретно в черной полосе париться нет смысла, а в целом очень даже есть. Жизнь, как казино, имеет матожидание немного с перевесом в свою сторону, у вас картинка с плотностью распределения неправильная)). Иными словами «здесь, знаешь ли, приходится бежать со всех ног, чтобы только остаться на том же месте».

goodok Apr 13 2019 at 23:44

Мне кажется, никаких особенных диформизмов у дата сайнтистов нет — многое из того что Вы описали похоже на обычные привычки хороших учёных с их «научным методом», когда полезная научная теория проверяеется экспериментом, а при прочих равных бритвой Оккама выбирается наиболее вероятная.

Правда, по себе могу судить о как минимум трёх развитых привычек больше подходящих для датасайнтиста или датаинжинера или учёного-эксперементатора:
1. В исходных данных всегда есть глюки, как бы нас не заверяли в обратном их поставщики. и чем больше наблюдений, тем все более невероятные случаи там зарегистрированы.
2. Если эксперимент показывает слишком высокие значения метрик — значит где-то ошибка, дата лик или оверфит.
3. Лучше 3 дня потраить на проверку (сприпт извлечения) исходных данных, чем через месяц выяснить, что модель училась совсем не тому.

По поводу построения моделей других людей: естесственный путь эволюции управляющей системы. Ссылка в тему: www.facebook.com/sergey.karelov.5/posts/2123155404386805

WinPooh73 May 14 2019 at 16:22

> тем более, что сегодняшняя неудача увеличивает вероятность нашего успеха завтра

Вообще говоря, это не всегда так. См. Ошибка игрока

kruegger May 14 2019 at 16:27

Согласен, не всегда. Но в данном контексте речь шла про регрессию к среднему («после получения экстраординарных результатов возрастает вероятность результата, более близкого к статистическому среднему»)