7 способов, как Data Scientists пытаются вас обмануть / Хабр

Иногда, люди продающие вам “искусственный интеллект” или “машинное обучение” могут вводить вас в заблуждение. В этой статье я поделюсь 7 простыми принципами, которые позволят избежать этого.

Неважно кем вы являетесь: руководителем фирмы, крупным предпринимателем, бизнес-ангелом, средним звеном в компании, судьей на хакатоне или человеком, кто хоть как-то связан с “техникой”. Рано или поздно кто-то обязательно попытается “продать” вам “ПО для машинного обучения”, “продукт с использованием ИИ” или еще какую-нибудь смесь из модных словечек. Когда вы оказываетесь в такой ситуации, может показаться, что у вас недостаточно знаний и опыта для принятия правильного решения. Не теряйте голову! Ниже приведены 7 критериев, которые позволят отличить стоящий продукт от пустышки. Они помогут вам не обращать внимание на лапшу, которую вам будут вешать на уши, и понять истинную ценность продукта.

“Мы используем искусственный интеллект, чтобы…”

Будьте бдительны, когда слышите словосочетание “искусственный интеллект”. Вероятнее всего это замысловатый маркетинг, за которым также может скрываться попытка утаить от вас важные и сложные детали. Доверяйте, НО вникайте в детали. Узнайте какая конкретно модель для машинного обучения использовалась. Попросите объяснить ее, используя аналогии.

Если вы не можете объяснить это простыми словами, вы сами не до конца это понимаете.
— Альберт Эйнштейн

Важные вопросы, которые стоит задать:

Какие другие методы (модели/алгоритмы/техники) вы пробовали и насколько отличались результаты в сравнении с выбранной моделью? (если это возможно, попросите графическое доказательство)
Почему вы выбрали именно этот метод?
Почему вы считаете, что этот метод работает лучше остальных с этими данными?
Кто-нибудь еще когда-то решал эту проблему? Если да, то какой метод они использовали?

Поначалу вам необязательно понимать все подробности, но вы должны спрашивать, уточнять и пытаться понять как можно больше.

Исходя из своего опыта, могу сказать, что не встречал пока ни одного концепта машинного обучения, который нельзя было бы объяснить, используя аналогии. Если большое количество технических деталей усложняет понимание, попросите объяснить все на пальцах. Такой подход не только позволит вам лучше понять о чем идет речь, но и покажет насколько хорошо было продумано решение. (Также вы сможете дать понять, что вы не из тех кого легко одурачить )

Выживут умеющие адаптироваться

В девяностых и ранних нулевых фильтр спама в почтовом ящике искал орфографические ошибки и другие простые индикаторы, чтобы автоматически помещать спам в соответствующую папку. Сейчас спамеры становятся умнее и спам все сложнее обнаружить. Чтобы правильно определять спам, модели машинного обучения должны были адаптироваться и совершенствоваться.

“Любая неудача это проваленная попытка адаптироваться к новым условиям, любой успех это удачная адаптация”
— Макс Маккиоун

Важно понять насколько легко можно переучить модель машинного обучения на новых данных и можно ли ее заменить более производительной моделью. Не забудьте спросить об этом. Это важно, потому что вы должны знать есть ли “срок годности” у решения, которое вам продают.

Мусор на входе, мусор на выходе

Насколько хороша модель машинного обучения зависит от данных. Поэтому вы должны убедиться в качестве данных, используемых для обучения модели. Конечно, качество трудно определить и оно может отличаться в зависимости от контекста. Лучше всего спросить насколько показательны и схожи данные для обучения с данными «реального мира», с которыми столкнется модель.

“Мы верим в Бога, а все остальные пользуются данными (хорошего качества).”
— Уильям Эдвардс Деминг

Модель может быть очень модной и современной, но если она обучается на данных низкого качества, плачевные результаты неизбежны.

Больше, больше, еще больше!

В целом, чем больше данных было использовано для обучения модели, тем лучше она работает (при прочих равных условиях). Особенно это касается моделей глубокого обучения. Модель машинного обучения похожа на старшеклассника, готовящегося к экзаменам. Чем больше разных вопросов он разберет, тем выше вероятность, что он сдаст экзамен.

“Худшая ошибка — строить теорию, не собрав (достаточно) данных.”
— Шерлок Холмс

Необходимо убедиться, что для обучения модели машинного обучения использовалось достаточное количество данных. Достаточно это сколько? Сложно сказать, но чем больше, тем лучше! В идеале данные должны быть получены из надежных источников, а эти источники должны быть полностью использованы.

Интерпретируемость

В машинном обучении часто существует компромисс между тем, насколько хорошо работает модель, и тем, насколько легко можно объяснить ее производительность, особенно низкую. Как правило, для сложных данных лучше работают более сложные и замысловатые модели. Однако чем сложнее модели, тем труднее объяснить влияние входных данных на итоговый результат. Давайте представим, что вы используете очень сложную модель машинного обучения для прогнозирования продаж продукта. Исходными данными для этой модели являются суммы денег, потраченные на рекламу на телевидении, в газетах и на радио. Сложная модель может дать вам очень точные прогнозы продаж, но, возможно, не сможет сказать вам, какая из 3 рекламных площадок, ТВ, радио или газета, больше влияет на продажи и стоит больше денег. С другой стороны, более простая модель могла бы дать менее точный результат, но смогла бы показать, какая из площадок обходится дороже. Вы должны иметь в виду прямую зависимость производительности и интерпретируемости модели.

Измеряйте, то что нужно, так как нужно

Доля правильных ответов является очень распространенной метрикой для измерения производительности модели машинного обучения. Например, модель машинного обучения для распознавания изображений кошек и собак с точностью около 96% можно считать очень хорошей. Это значит, что из 100 изображений кошек и собак модель может правильно распознать 96 изображений. Представьте, что банк пытается применить тот же показатель для распознавания мошеннических операций. Так как подобные операции случаются редко, добиться 96% точности очень легко. Однако цель не в том, чтобы обнаруживать их правильно в 96% случаев, а в том, чтобы допускать меньше ошибок в их распознавании и предотвратить как можно больше мошеннических операций. Даже если вы не сможете распознать всего 4% таких операций, это нанесет банку огромный ущерб.

Измерение это легендарная вещь. Если, конечно, вы не тратите время измеряя то, что легко измерить вместо того, чтобы измерять то, что нужно измерить.
— Сет Годин

В примере с банковским мошенничеством число ошибочных отрицательных результатов скорее указывает на эффективность модели, а не на точность. Чтобы определить точность модели, нужно учитывать полноту модели, ее специфику, меру F1. Вот замечательная статья Мохаммеда Сунасры, в которой он рассказывает, когда следует использовать каждую из этих метрик. Важно помнить, что нужно использовать правильную метрику и по возможности несколько разных.

Какие у вас сильные и слабые стороны?

Знакомый вам вопрос, который всем постоянно задают на собеседованиях, может оказаться очень полезным при попытке оценить ПО для машинного обучения. Когда кто-то предлагает вам продукт, вы должны обязательно узнать есть ли у него ограничения. Знать ограничения необходимо, чтобы ответить на два ключевых вопроса:

Перевешивают ли сильные стороны ограничения, сопутствующие реализации решения?
Могут ли ограничения снизить производительность в будущем?

«Ключом к успеху является понимание своих слабостей и их успешная компенсация. Люди, которым не хватает этой способности, постоянно терпят неудачи». — Рэй Далио

Для реализации эффективного и устойчивого продукта знание ограничений является ключевым фактором успеха. Более того, если вы попросите создателей продукта пояснить его ограничения, вы получите представление о том насколько с вами откровенны. Вы сможете понять насколько хорошо было продумано ПО и заслуживают ли доверия люди, предлагающие его.

Заключение

Может вам не хватает знаний или от поступающего предложения захватывает дух, в любом случае у вас есть одно секретное оружие, которое может вам помочь — фонарик, который проведет вас сквозь туман. Это секретное оружие — ваша способность задавать вопросы. Спрашивайте! Спрашивайте, уточняйте и изучайте вопросы, в которых вы не уверены. Семь вышеописанных принципов дадут вам стратегию и направления. Смело используйте их, когда задаете вопросы. Они помогут вам лучше разобраться в продукте и объективно оценить его.

Перевод: Диана Шеремьёва

Узнайте подробности, как получить востребованную профессию с нуля или Level Up по навыкам и зарплате, пройдя платные онлайн-курсы SkillFactory:

7 способов, как Data Scientists пытаются вас обмануть