PRL: смена правил

Один из 2 цветов даёт +10. Когда правило поменяется — переключись

О тренажёре

PRL — это задача на вероятностное обучение с переменой правила. На каждом шаге вы выбираете один из двух вариантов; «хороший» вариант приносит награду чаще другого, но не всегда, поэтому правильный выбор приходится нащупывать методом проб и ошибок. Без предупреждения правило меняется, и выгодным становится второй вариант — задача в том, чтобы вовремя это заметить и переключиться, а не цепляться за то, что работало раньше.

Что развивает

Тренирует гибкость мышления и обучение по обратной связи в условиях неопределённости: держаться правила, пока оно приносит выигрыш, отличать настоящую смену правила от полосы невезения и менять выбор, не дёргаясь из-за единственного обманчивого результата.

История появления

Идея выросла из исследований обучения животных середины XX века: животное обучали простому различению, а затем меняли местами вознаграждаемые варианты и смотрели, как быстро оно переучится. Вероятностная версия для людей оформилась в когнитивной нейронауке в начале 2000-х, когда к обратной связи добавили «шум», чтобы ближе воспроизвести неопределённость реальной жизни и проверить, как мозг справляется с меняющимися правилами.

Кто и когда создал

Единого изобретателя нет. Реверсивное обучение пришло из бихевиористской традиции опытов со сменой различения 1940–1950-х годов, связанной с такими исследователями, как Гарри Харлоу, супруги Кендлер и Н. Дж. Макинтош. Современную вероятностную версию для исследований мозга человека обычно связывают с работой Рошан Кулс, Люка Кларка и коллег из Кембриджа около 2002 года, которые опирались на эту давнюю линию, а не основали её.

Методы тренировки

Воспринимайте один промах как шум, а не как доказательство: вывод о смене правила делайте лишь после нескольких неудач подряд по тому варианту, который считали лучшим. Держите в голове общую картину последних результатов, а не реагируйте на самый последний шаг, и, переключившись, дайте новому выбору достаточно попыток, чтобы убедиться в нём, прежде чем снова сомневаться.

Сколько заниматься

Лучше работают короткие регулярные подходы: примерно 5–10 минут несколько раз в неделю. Тренируется быстрое обновление решения, поэтому несколько коротких заходов полезнее одного долгого, на котором усталость делает вас либо слишком дёрганым, либо слишком упрямым.

Доказательная база

Надёжнее всего подтверждено очевидное: с практикой вы лучше справляетесь с самой задачей и точнее отличаете реальную смену правила от случайной полосы неудач, а сама задача стабильно улавливает различия в гибкости между группами в клинических и нейробиологических исследованиях. Утверждения, что такая тренировка широко переносится на повседневные решения или общую «гибкость мышления», слабы и спорны, а вся область тренировки мозга даёт мало оснований ждать дальнего переноса, так что к громким обещаниям относитесь с осторожностью.

Частые вопросы

Почему я проиграл, хотя выбрал «правильный» вариант?

Потому что хороший вариант приносит награду чаще, но не каждый раз. Один проигрыш — это чаще всего шум, и правило вовсе не обязательно поменялось.

Как понять, что правило действительно сменилось?

Ищите череду плохих исходов по тому варианту, который раньше работал, а не один промах. Когда неудачи идут подряд — это и есть сигнал переключаться.

Станет ли моё мышление гибче в реальной жизни?

Вы наверняка станете лучше в этой и похожих задачах. Широкий перенос на повседневные решения подтверждён слабо, так что тренируйтесь в удовольствие, но не рассчитывайте на перемены, меняющие жизнь.

Разновидности

Варианты меняют сложность за счёт того, насколько надёжен хороший вариант (например, 80/20 против более шумного 70/30), как часто происходит смена правила, следите ли вы за двумя вариантами или за несколькими и приходит ли обратная связь в виде наград, потерь или того и другого. Детерминированные версии убирают случайность вовсе и просто переворачивают правило, которое всегда выполняется.

Играть в браузере Скачать