Елена Герасимова, руководитель направления Data Science в Нетологии, перевела статью Лаи Квефелиц (Lai Queffelec) о том, чем похожи процессы воспитания детей и обучения ИИ.

Если вы, как и я, воспитывали детей и одновременно обучали алгоритм, то скорее всего, сравнивали эти два процесса. И даже если вы не увлекаетесь искусственным интеллектом, но много знаете о детях, — добро пожаловать в удивительный мир воспитания машин… упс, машинного обучения.

При написании этой статьи ни один ребенок не пострадал. Просто я, как и любой родитель, провожу много часов, наблюдая, как мой ребенок познает мир, и удивляюсь, глядя на его поведенческих паттерны. Так же, как это делают data scientist, наблюдая за результатами выборок train/test (тренировочная выборка данных для обучения алгоритма / результат работы алгоритма на новых данных — прим. ред.).

«Сначала он глуп, как пробка» 


Это цитата Джима Стерна, автора «Artificial Intelligence for Marketing: Practical Applications», из лекции о машинном обучении — не о детях (я люблю детей!).

Суть машинного обучения в том, чтобы собственно научить машину выполнять определенную задачу, — точно так же, как родители мечтают научить детей собирать грязное белье и укладывать его в стиральную машину, пока мама с папой отдыхают на диване (признайтесь, пытались?). 

Однако основное отличие в ��ом, что когда ребенка просят постирать белье, он уже знает, как выглядит одежда; умеет ходить, хватать, тянуть и складывать — эти действия он усвоил благодаря другим событиям в своей юной жизни. 

Так где же ключ, который в конечном итоге открывает возможность лениться на диване, пока белье волшебным образом стирается? Контекст. Мы даем детям примеры: показываем, как выполнять каждый шаг и благодарим, когда они делают все правильно — ведь мы их любим.

Машинное обучение в значительной степени — то же самое, разве что у «виртуального ребенка» при способностях подросшего малыша все еще опыт новорожденного. Поэтому придется начать разъяснения с нуля: эти пять штук, похожих на сосиски, которые торчат в конце длинной, похожей на колбасу, палки — это пальцы, рука и ладонь. Лишь затем следует показать, как с их помощью выполнять нужные действия — хватать и тянуть. Набор данных, который вы даете машине — это все, что нужно для начала работы, но также и все, что существует в мире для нее. То, чем она еще не обладает, это…

… здравый смысл


Обычно люди с успехом различают мужчин и женщин. Лиам, мой сын, также неплохо с этим справляется — при этом я не дала ему на входе большой набор размеченных данных. Я не сидела с ним в парке и не указывала на людей, говоря «мужчина, мужчина, женщина, мужчина, женщина» — потому что это, будем честны, было бы странно. Да и не нужно. Машине недоступна роскошь здравого смысла, которым обладает ребенок, и которым пользуется уже при первом столкновении с новым понятием.

Под здравым смыслом я имею в виду:

��пособность принимать правильные решения и делать правильные предположения, основываясь на логическом мышлении и накопленном опыте — Wiktionary

Конечно, когда ребенок решает прыгнуть головой в землю с высоты, мы вполне резонно сомневаемся в наличии у него здравого смысла. Тем не менее он существует и позволяет детям извлекать уроки из всего своего опыта. При этом никто им явно не транслирует, как научиться различать мужчин и женщин.

Разъясняя тему ИИ не-датасайентистам, я люблю использовать аналогию. Ребенку нужно лишь немного наблюдательности, несколько примеров и пара исправлений, чтобы научится говорить «мистер» или «миссис». А чтобы обучить машину делать то же самое, понадобится дать ей тысячи изображений. Отсутствие здравого смысла, вероятно, причина №1, почему машины пока не готовы захватить мир.

Нормы и странности


Лиам делает странные вещи, например, ест хот-дог, держа его за концы и кусая посередине. Стандартная реакция — сказать ему: «Лиам! Так не делают!». Но затем я сдерживаюсь и думаю о том, что решение «из коробки» — не лучшее, что я могу ему дать. Хотя когда он пытается держать ложку ноздрями, действительно приходится выставлять границы допустимого поведения за столом.

В этом и есть великое сходство малышей и машин — они свободны от социальных норм и предубеждений (или байеса — от англ. bias). И в этом же различие родителей и дата сайентистов. Малышам нужно дать набор ценностей и социальных норм, из которых они построят свой опыт. «Хорошие границы», назовем их так. Как ученый, занимающийся данными, вы, скорее вс��го, играете противоположную роль. Машина должна быть свободна от ваших собственных норм и предубеждений. Предвзятость или склонность в алгоритмах — очень опасно.

Все любят сплетни и хайп. Например, ИИ-рекрутер от Amazon — сексист (Amazon’s recruiting AI is sexist), или «улучшающий» фильтр FaceApp — расист (FaceApp’s «hot» filter is racist). Это хороший способ объяснить людям, не имеющим отношения к науке о данных, что роль ученого и дата сайентиста в значительной степени сводится к предотвращению предвзятости и созданию как можно более этичного алгоритма.

Корреляция и причинно-следственная связь



Источник картинки xkcd

Корреляция не подразумевает причинно-следственную связь. А Николас Кейдж не монстр, который провоцирует утопление в бассейне (почитайте об этом на досуге). Тем не менее, я усвоила, что ребенку это правило не очевидно.

Не так давно на отдыхе со всей семьей, я сообщила ребенку, что собираюсь поесть, и начала накладывать еду в тарелку. Именно в этот момент он разрыдался, крича на меня («Не ешь, мама!!!»), хлопая меня по руке и выбивая вилку из моей руки. 

Когда мне удалось подобрать челюсть с пола, я попыталась понять, был ли мой ребенок монстром, который не хочет, чтобы его мать ела и только через два дня, укладывая его спать, поняла, откуда все это пошло. 

Наш ежедневный распорядок дня был таким: я возвращалась с работы, кормила ребенка, купала, укладывала спать, а затем, наконец, ела. В результате, каждый раз, укладывая малыша в постель и читая ему книжку, я заканчивала вечер словами: «Мама собирается поесть». И после этого оставляла ребенка наедине на следующие 10–12 часов сна. Благодаря этой корреляции его разум создал причинно-следственную связь: «если мама собралась поесть, скоро она оставит меня одного». Ой…

Здесь моя материнская задача — изменить этот шаблон, чтобы сын не усвоил связь между едой и разлукой. У Data Scientist, если машина выбирает неправильный признак или причину, главная задача — признать ошибку.
 
Вернемся к неудачному использованию AI компанией Amazon в качестве инструмента набора пе��сонала. Выборка данных за 10 лет, которую они использовали для оценки кандидатов, выбирала мужчин охотнее, потому что «большинство резюме были исторически получены от мужчин, что отражает мужское доминирование в технологической индустрии».

И вот AI Амазона будто говорит: «Эй, ребята, большинство претендентов — мужчины, так что вы должны нанимать мужчин, и если резюме прислала женщина, то я выбрасываю его, потому что это аномалия».

Нет, AI. Это просто делает тебя сексистом. И именно здесь малыши имеют преимущество (и взрослые, давайте будем оптимистичны): никогда не поздно научиться не быть сексистом. 

И родительство, и Data Science — это о людях


Нет ни одного родителя, который назовет воспитание детей исключительно приятным и легким делом (и если кто-то все таки так скажет, он нагло соврет). Каждый родитель должен постоянно задавать себе вопрос «чему же учится малыш?» и приспосабливаться к его постоянно развивающейся нейронной сети.

Data Scientists в какой-то степени несут ту же ответственность. 

Нельзя, нанимая или обучаясь на Data Scientist, ожидать, что вся работа будет связана только с программированием. Это равносильно ожиданию, что из ребенка можно вырастить счастливого взрослого, дрессируя его, как собаку, приказами «сидеть» и «перевернись» все детство. По опыту, это работает, пока ребенку не исполнилось 6 месяцев — а как только он научился сам переворачиваться, пора учить его человеческим вещам.

Так что же проще — растить ребенка или воспитывать машину?


Я просто оставлю здесь ухмыляющийся смайлик. Если вы родитель, вы и так все знаете.

От редакции