Подкрепляем полезные привычки / Habr

Этот текст (не осмелюсь назвать «статьей») стал побочным продуктом моего «грандиозного» замысла — попытки пересказать понятным языком содержание одного из эпизодов The Huberman Lab podcast, который называется «Как ставить цели и достигать их». И, как все прочие эпизоды, он начинается со слов «Welcome to the Huberman Lab podcast where we discuss science and science‑based tools for everyday life. »

Мне захотелось провести на себе эксперимент, проверить, сработают ли советы и «science‑based tools» от Andrew Huberman в моей повседневной жизни, жизни простого и заурядного человека. Была выбрана цель — «Написать статью "Как ставить цели и достигать их"» и дан старт.

К сожалению (или к счастью), кавалерийским наскоком взять крепость не удалось: любопытство и занудство, умудряющиеся много лет во мне уживаться, не позволили просто «взять и пересказать эпизод». Я пытался (и до сих пор пытаюсь) разобраться в непонятных мне терминах, концепциях и взимосвязанных процессах. Их, непонятных, оказалось очень много. Так много, что через две недели ежедневного труда я решил: для начала хватит и статьи о роли в процессе достижения цели концепта «Random Intermittent Reinforcement». Потом появились мысли, что и здесь стоит умерить пыл и ужаться до описания роли Reward Prediction Error в Random Intermittent Reinforcement. С чем я себя и поздравляю. И периодически задаю вопрос: интересно, будет ли момент, когда попробую «сделать отдельную статью» из одного абзаца? Из одного предложения? Слова? Ответов нет. Двигаюсь вперед, а там — как получится.

Итак, разбираемся вначале, что такое Random Intermittent Reinforcement (сокращенно RIR) в целом, затем переходим к его основному компоненту — Reward Prediction Error (сокращенно RPE), термину, заимствованному психологией у машинного обучения (или наоборот). Пытаемся понять, можно ли превратить RIR в свой персональный инструмент для формирования полезных привычек. И поработать с этим инструментом.

Текст состоит из двух частей:

Теория: очень кратко о том, что такое Random Intermittent Reinforcement.
Практика: мой личный опыт его эксплуатации.

Оговорки:

Я — не специалист в психологии человека и не коуч, продающий курсы «Как изменить себя».

Текст изобилует англицизмами и позаимствованными из бюрократического, канцелярского языка изящными многосложными словами, соединенными в тяжелые фразы. Что, конечно же, упрощает чтение и делает его особенно приятным и легким. Наслаждайтесь.

Относитесь к написанному со здоровым доброжелательным юмором, по крайней мере, так старался относиться к нему я.

Любая критика, даже злая и разгромная, хоть и не будет в радость, все же приветствуется (скрипя зубами). А вот что точно будет в радость, так это замечания, пожелания и рассказы про личный опыт.

A group of people playing slot machines Description automatically generated

Random Intermittent Reinforcement

Что вообще за фрукт такой? Он — съедобный?

«Random intermittent reinforcement» или «случайное периодическое подкрепление» — это режим обусловливания, в котором награда или наказание (подкрепление) даются спорадически за определенное желаемое поведение. Повторим, чтобы запомнить — «спорадическая награда за желаемое поведение».

В умелых руках превращается в процесс обучения, приобретения новых привычек. И не обязательно полезных привычек: именно RIR применяют в казино (фото на обложке), периодически, но всегда непредсказуемо, вознаграждая выиграшем за потраченные деньги.

И в «обусловливании» ключевую роль играет Reward Prediction Error.

Reward Prediction Error

«Ошибка предсказания вознаграждения», так это звучит по‑русски, многосложно и весомо.

Это субъективная оценка того, насколько полученный в результате нашей активности результат (награда) совпал с ожиданиями.

(субъективная оценка полученного) минус (ожидания) равно (reword prediction error)

«Вычислив» примерное значение RPE, мозг дает команды, сколько в ответ на награду произвести дофамина, изменяя его уровень в нервной системе.

Оценка высокая (действительность превзошла ожидания) — уровень растет выше базового.
Средняя примерно соответствует ожиданиям) — не изменяется.
Низкая не оправдала ожиданий) — падает ниже.

А это, в свою очередь, влияет на наше настроение: высокий уровень дофамина вызывает воодушевление*, даже восторг, низкий — ровно наоборот. Как результат, в подсознании отстается связка «такая‑то череда действий приводит к восторгу». Или не приводит.

*Дофамин, в узких научных академических кругах, к которым я несомненно принадлежу, это вещество называют «currency of desire». Мы, ученые, любим точные термины.

Кто‑то проголодался и начал мечтать об изысканном блюде из ресторана с тремя мишленовскими звездами — запеченной курице. Мозг рисует заманчивые картины. Дофамин вырабатывается в огромных количествах («дозах» было бы уместнее), его уровень взлетает над базовым: в подсознании сие кулинарное чудо уже давно прочно связано с удовольствием, переходящим в восторг.

Нужно действовать! Вперед, за курицей!

Этот же «кто‑то» стремглав бежит в ближайший мишленовский ресторан — торгующую шаурмой и курями палатку. Палатка — не близко, и люди крутятся под ногами, мешают, не дают набрать достойную скорость. Дофамин из запасов быстро расходуется и плавно уходит на уровни ниже базового.

Курица — на славу!

Сочная, в меру прожаренная, аппетитная. Даже вкуснее, чем ожидалось. Reward Prediction Error намного выше единицы. Дофамин (доза) вырабатывается по максимуму, его количество опять взлетает на уровни, выше базового. Лучший из вариантов! Удалось на славу поесть! И — что особо важно — в подсознании начинает создаваться, если это первый такой случай, или укрепляться, если походы за жареной курицей уже случались, связка «быстрый бег по людным улицам в результате приводит к состоянию восторга».

Курица — так себе.

Нет, она — неплохая, но и ничего особенного. Reward Prediction Error — ноль. Дофамин на титул «доза» уже явно не тянет. Да, он как‑то сумел вернуться к базовому уровню, голод ведь утолить получилось. Но не более того. И никаких изменений в подсознании в отношении действия «быстрый бег по людным улицам» не происходит: если даже и были какие‑то ассоциации, то они точно не стали прочнее.

И третий, отвратительный сценарий: курица — отвратительна на вкус, несвежая.

И к тому же начался дождь. А какие были ожидания! Запасы дофамина, и без того уже сильно израсходованные в забеге, сгорают до конца. Жизнь явно не удалась. И вот у того прохожего рожа отвратительная. И погода — дрянь. И на работе — одни идиоты. И чтобы я еще хоть раз пробежался в эту пору по улице! Да никогда!

Мой личный опыт

Теперь представим себе, что вместо «быстрого бега по людным улицам» — «пятьдесят пять минут работы над статьей». Представили?

Моя задача:

Создать в подсознании стойкую ассоциацию «час напряженной умственной работы часто приводит к состоянию восторга».

Вместо «жареной курицы» пусть будет «кусок шоколадки». На первый взгляд нельзя сказать, что кусок шоколадки выглядит справедливой наградой за почти час работы. И что такая мелочь может вызвать серьезный выброс дофамина. Но я очень люблю шоколад, поэтому у меня такой подход может и сработать.

Ниже — строгое, как того требует публикация в серьезном издании, описание результатов эксперимента.

Гипотеза:

Используя (умело) Random Intermittent Reinforcement за двадцать рабочих дней (сорок сессий), можно сформировать привычку регулярно работать над науч‑поп текстами.

Оснащение:

Ноутбук. Чтобы стучать по клавишам, производя текст.
Наушники с амбушюрами. Чтобы изолировать внешний шум, если понадобится.
Генератор псевдослучайных чисел. Дает ответ, будет награда или нет.
Шоколадка. Награда! Я очень люблю шоколад.

Когорта подопытных:

Один человек (весьма зрелых лет и с устоявшейся ленью).

Эксперимент, методика:

На протяжении четырех недель, сразу же после завершения утренней и дневной рабочей сессии (55 (пятьдесят пять) минут каждая, пять раз в неделю по рабочим дням):

Если отработал запланированное время и генератор выдал четное число, получаю в награду кусок шоколадки.

Если же хотя бы одно из условий не выполняется, sorry, награды нет.

«Награда» — НЕ за результаты работы, а за собственно процесс, примерно час разной степени успешности и осмысленности стука по клавиатуре.

Время контролируется таймером на часах Garmin Venu 2 plus, их точность не проверялась. Частота пульса не измеряется.

Все стадии эксперимента документируются, заносятся в дневник.

Ход эксперимента и промежуточные результаты:

На момент, когда я пишу (начал писать) этот абзац, эксперимент длится уже двадцать календарных дней (с 01.09.2023).

Результаты каждой сессии оценивались бинарно:

Отработано — за клавиатурой проведено не менее запланированного времени.

Нет — за клавиатурой проведено менее запланированного времени.

Было отработано 38 сессий из 40 запланированных, 95%.

Есть сложности с подсчетом количества сессий с наградами: на стадии разработки методики эксперимента я не озадачился внятной политикой учета и поэтому в начале есть пропуски. Расчет выглядит корявым, но другого народа у меня нет.

Всего сессий, когда генератор запускался, получилось 17, и только в семи случаях он выдал четное число, т. е. сигнал «Награда». Странный факт, требующий отдельного исследования.

	Количество, шт.	Удельный вес, %
Сессии с наградой	7	18%
Сессии без награды	31	82%
Всего сессий*	38	100%

* В конце нескольких сессий из-за забывчивости объекта эксперимента генератор псевдослучайных не запускался, поэтому сложение количества "Сессии с наградой" и "Сессии без награды" меньше общего количества сессий. Наказанием объекту эксперимента за невнимательность стало то, что он в этих случаях оставался без шоколада.

Во время большинства сессий для преодоления т. н. Middle Problem применялась техника Visual Targeting, но такое применение не документировалось, поэтому оценить ее эффективность нет возможности.

У объекта эксперимента выработалась привычка работать над науч-поп текстами два раза в каждый рабочий день по пятьдесят пять минут. Побочных эффектов врода нарушенного сна и потери аппетита не наблюдалось. Дополнительным положительным эффектом стало усвоение объектом правила написания слов "reward" и "intermittent".

Выводы:

Можно достаточно уверенно предположить (p=0), что применение метода Random Intermittent Reinforcement через эксплуатацию Reward Prediction Error способствует формированию позитивного поведения (позитивных устоявшихся привычек) у популяции особей Homo Sapiens мужского пола в возрасте около пятидесяти восьми лет.
Для оценки эффективности описанного метода на популяции особей Homo Sapiens, отличной от когорты подопытных, нужны дополнительные исследования.
Частое употребление в тексте словесных конструкций (в просторечьи именуемых "фразы") вроде " имплементация эксплуатации способствует формированию позитивного поведения" улучшает восприятие текста, особенно если подобные словесные конструкции встречаются в предложениях длиной более двадцати слов.

Эпилог

Вопреки фальшивой игривости п. 2 «Выводов», я действительно считаю, что было бы интересно и полезно провести подобный полевой, внелабораторный эксперимент на других особях Homo Sapiens. И список привычек, которые можно попробовать сформировать, — бесконечен: от короткой пробежки до изучения нового языка.

Пишите в комментарий, какие привычки хотели бы сформировать вы. И, если уже используете какие‑то работающие методы для подобных задач, то какие именно. Или если попробовали что‑то и это «что‑то» не сработало, было бы тоже интересно почитать.

Спасибо за то, что осилили текст до конца.