Как стать автором
Обновить

Комментарии 36

Иностранные источники упоминают такую забавную штуку: помимо интонаций повествовательной, восклицательной и вопросительной в русском языке имеется также «интонация советской учительницы». Видимо, задолбательная. Это тоже часть деформации.

lurkmore
Самое главное искажение в сознании дата саентистов это не желание рассматривать вопрос на котором базируется почти все в их деятельности. Это доказательства того, что модели построенные на данных предыдущих периодов подойдут для данных из будущих периодов. При полном не понимании структуры рассматриваемой области. Пока подход чисто веревочно-палочный. Типа, раз работает на тестовом наборе данных, то будет работать и в будущем. Особенно смешно выглядит такой подход для временных рядов.
Если все модели не верны, но могут быть полезными, не имеет ли смысл сосредоточить внимание на критериях и условиях этой полезности, а не обсуждении видов модельной неверности?
На мой взгляд, критерий полезности — личное счастье и гармония отдельного человек.

Возьмем например следующую цитату (Чехов «Татарин в ссылке»)

«Я, братуша, не мужик простой, не из хамского звания, а дьячковский сын и, когда на воле жил в Курске, в сюртуке ходил, а теперь довел себя до такой точки, что могу голый на земле спать и траву жрать. И дай бог всякому такой жизни. Ничего мне не надо и никого я не боюсь, и так себя понимаю, что богаче и вольнее меня человека нет. „

Модель хорошая, человеку в ней збс и зла некому не делает. ОК.
Нет, конечно. Критерий полезности всегда находится в постановке задачи, модель должна ей соответствовать. Если вы передвигаете мебель по квартире, то вам не нужна модель квантовых эффектов и даже представление о том, что Земля — геоид. Поэтому абстрактные рассуждения о data science вообще страдают излишней поэтичностью и бесполезны. Ведь задача не поставлена… )))
Понимая, что полезность понятние относительное (полезно для кого? общества, животных, грибов, whatever, россии, америки, путина), я предпочитаю полезность оценивать по личному счастью человека. Живет, радуется, зла не делает — модель ок :)
То есть по вашим представлениям идеал моделей — это любые модели для идиотов… )
Это почему вы так решили и что вообще такое идеал?
я скорее имею в виду, что любая модель которая делает человека счастливым, способным радоваться новому дню, солнышку и рассвету каждый минуту своего существования и при этом не делать плохо другим людям — хороша и полезна.
Я так решил потому, что идиоты и дураки — это самые счастливые люди. Может быть поэтому им модели вообще не нужны. ))) Мне трудно себе представить инженера, который создает модель, например, инерциальной навигации, для того, чтобы радоваться солнышку и имеет этот критерий считает базовым в определении качества этой модели… )))
Я ниже уже писал. Под моделью я понимаю вообще все ваши знания о мире вокруг. И то что вы видите это ведь не то что есть на самом деле, а тоже некая модель у вас в голове.

>>Я так решил потому, что идиоты и дураки — это самые счастливые люди.
Попробуйте смотреть на вещи более относительно что-ли. Есть дураки, есть умники. Одним от природы дано одно, другим может что-то другое, а может ничего. Грубо говоря исходные данные железа на котором крутится модель разные и это частично определяет модель. И при определенных условиях модель близкую к истине дураку не усвоить. Никак. И наоборот тоже. Так что в таком случае считать хорошей моделью?
Почитайте на досуге про такую характеристику личности, как открытость опыту, openness.
Там всё гораздо проще, без вот этого налёта элитарности и профессиональной деформации.
Спасибо, обязательно почитаю.
kruegger, спасибо, Канеман всегда в тему.

Вспомнилось в связи с темой профдеформации.

Вопрос: Сколько будет дважды два?
Система 1: Четыре!
Система 2: А мы покупаем или продаём?

А какие недостатки Вы бы назвали у дата-саентистов?

Например, я часто перевожу и иногда нужное слово легче вспомнить на английском, а не на русском. Хотя должно быть наоборот, поскольку русский — родной язык.
Мне сложно ответить насчет недостатков, но, наверное, занудство )
Плюс за самоиронию :)
«человеку нужна модель окружающего мира, адекватно решающая его текущие задачи.»
Почему только человеку? Животным тоже надо. В процессе эволюции от скинноровских созданий как минимум до попперовких дошли (http://www.psylib.ukrweb.net/books/dennd01/txt04.htm)
Есть версия что в модели животного нет понятия времени. Они не прогнозируют что произойдет завтра или через год
Возможно. Но скорее всего просто разный горизонт планирования и чёткой границы между животными и людьми нет. Глядя на некоторых людей, кстати, сомневаюсь что они прогнозирут что с ними произойдёт через год или через 10 лет.
Пытаюсь понять, почему такая продуманная статья вызывает такое неустранимое раздражение. Категоричный тон, невзирая на disclaimer? Попытка приписать data scientist'ам какие-то особые качества, которые с той же вероятностью выработаются (или не выработаются) у любого инженера, физика и вообще естествоиспытателя? Размытие понятия об истине и причинно-следственных связях? Добровольный отказ от поиска фундаментальных закономерностей в угоду статистическим? И наконец, «Миром правит случай» — не есть ли это главный (и вовсе не безвредный) след профессиональной деформации, о котором столь красноречиво свидетельствует статья?
Не соотвествует вашей модели, отсюда и раздражение
Конечно, не соответствует. Я никогда и не отрицал, что сам пользуюсь лишь моделями — и как исследователь, и как человек. Но судя по вашему возражению, для вас все модели чуть ли не равноправны, а понятие истины исключается. Для меня оно остаётся — пусть и не как свойство какой-то отдельной модели, но как предел, к которому должна стремиться последовательность моделей.
Вашим аргументом можно объяснить вообще всё. Это верный признак того, что фактически им нельзя объяснить ничего.
Складывается ощущение что мы по-разному понимаем понятие «модель» из статьи.
Мир существует отдельно. Тот мир который воспринимаете вы, глазами, ушами и есть модель.
Далее эту модель дополняют ваши знания, например что земля кругля, а зеленые абрикосы — кислые. Вот это все вместе, включая все ваши знания о мире, о людях и есть модель про которую мы говорим, а не про те разные модели которыми вы пользуетесь.

Или вот например вера или не вера в бога — это часть этой модели, такое же как знание что земля круглая.

Теперь подойдем к вопросу истины. Допустим, что критерий истинности — это насколько близка модель к реальности и непротиворечива, при этом «реальность» это, в том числе понимание, того как собственно вы устроены, в частности как устроен мозг и что такое «сознание» и что такое «я» и что такое «смысл жизни» (если он, конечно, не является когнитивным искажением, а ведь скорее всего является). Мы к сожалению об всем этом еще знаем очень мало, так что говорить об истинности на данном этапе развития человечества не приходится вообще.

P.S. Что такое истина? 100 лет назад истина была другая, с чего вы взяли что сейчас мы сильно ближе? Как вы думаете, что будут думать об истинности нашей модели наши потомки, скажем, через 1000 лет?

Я под моделью понимаю то же самое, что и вы (или по крайней мере ту часть большой модели, которая прямо относится к тому или иному делу). И я предлагаю смотреть на истину не как на факт, а как на асимптоту; не как на достижение, а как на пожелание. Что касается понятий об истинности через 1000 лет, то я думаю, что «асимптотическое» понимание истины и принцип соответствия позволят нам не выглядеть глупо в глазах потомков.

Далее, всегда, когда есть возможность, следует предпочесть модель концептуальную, а не статистическую, и не ссылаться на случай, который якобы «правит миром». Голая статистика без проникновения в суть явления — последнее пристанище, жест отчаяния, который уместен лишь тогда, когда мы капитулируем перед сложностью явления. Такова, к сожалению, сейчас психология, примеры из которой вы приводите. Такой же часто бывает медицина, что ещё печальнее. Гордиться здесь нечем. Это лишь свидетельство нашей слабости.
Ах, вы против именно статистического подхода. Я не увидел в статье идеи что статистика это то из чего стоит исходить. Я увидел только то, что автор полагает что во многим миром правят случайности и человек склонен переоценивать упорядоченность и собственный контроль своей жизни. Грубо говоря объектов дофига, связей между ними тоже, полных исходных данных нет, ресурсов для анализа тоже не дофига, но вы по прежнему считаете что управляете своей жизнью (это примерно то, над чем смеялся Воланд у Булгакова). Так что статистический подход, на мой взгляд, в данном случае вполне может быть уместен.
насчет истинности, ну есть например психология, она вообще использует крайне приближенные модели без понимания как на самом деле устроен объект моделирования (хотя это не значит что они не работают). При этом (повторюсь) мы вообще не знаем что такое сознание. Кроме того, модель включает в себя например вопрос как вообще надо жить. И вот это все, лет скажем через 100 лет, на мой взгляд, отправится на свалку (техническая сингулярность не за горами).
Почему только автора?
Публикация в блоге сообщества, это же «апрельские тезисы», традиция уже.
Спасибо большое за статью. Во многом близко к моей картине мира, хотя я и не data scientist.

Хорошая статья, только много букв. Настоящий DS то знает оптимальную длину статьи на хабре ;-)

А вещества, расширяющие сознание, в терминах данной статьи что делают?
Сбрасывают веса временно?

Ансамбли дополняют.
Регуляризируют. :)
Дата сайентист понимает все вышеизложенное и не парится, если попадает в т.н. “Черную полосу”,

Конкретно в черной полосе париться нет смысла, а в целом очень даже есть. Жизнь, как казино, имеет матожидание немного с перевесом в свою сторону, у вас картинка с плотностью распределения неправильная)). Иными словами «здесь, знаешь ли, приходится бежать со всех ног, чтобы только остаться на том же месте».
Мне кажется, никаких особенных диформизмов у дата сайнтистов нет — многое из того что Вы описали похоже на обычные привычки хороших учёных с их «научным методом», когда полезная научная теория проверяеется экспериментом, а при прочих равных бритвой Оккама выбирается наиболее вероятная.

Правда, по себе могу судить о как минимум трёх развитых привычек больше подходящих для датасайнтиста или датаинжинера или учёного-эксперементатора:
1. В исходных данных всегда есть глюки, как бы нас не заверяли в обратном их поставщики. и чем больше наблюдений, тем все более невероятные случаи там зарегистрированы.
2. Если эксперимент показывает слишком высокие значения метрик — значит где-то ошибка, дата лик или оверфит.
3. Лучше 3 дня потраить на проверку (сприпт извлечения) исходных данных, чем через месяц выяснить, что модель училась совсем не тому.

По поводу построения моделей других людей: естесственный путь эволюции управляющей системы. Ссылка в тему: www.facebook.com/sergey.karelov.5/posts/2123155404386805
Согласен, не всегда. Но в данном контексте речь шла про регрессию к среднему («после получения экстраординарных результатов возрастает вероятность результата, более близкого к статистическому среднему»)
Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.