PRL: Aprendizaje por reversión
Uno de 2 colores paga +10. Cuando la regla se invierte, cambia
Sobre el ejercicio
PRL es una tarea de aprendizaje por reversión probabilístico. Tienes dos opciones y eliges una en cada intento; la mejor opción acierta la mayoría de las veces, pero no siempre, así que aprendes por ensayo y error cuál es la 'buena' en cada momento. Sin previo aviso, la regla se invierte y la otra opción pasa a ser la mejor; tu tarea es darte cuenta del cambio y cambiar, en lugar de aferrarte tercamente a lo que antes funcionaba.
Qué desarrolla
Entrena la flexibilidad cognitiva y el aprendizaje guiado por la retroalimentación en condiciones de incertidumbre: mantener una regla mientras da frutos, distinguir una reversión genuina de una racha de mala suerte y actualizar tu elección sin sobrerreaccionar a un único resultado engañoso.
Historia
La idea surgió de la investigación sobre aprendizaje animal de mediados del siglo XX, donde se enseñaba a los animales una discriminación sencilla y luego se invertían las contingencias de recompensa para ver con qué rapidez podían reaprender. La versión probabilística para humanos tomó forma en la neurociencia cognitiva a comienzos de los años 2000, cuando se añadió retroalimentación ruidosa para imitar mejor la incertidumbre del mundo real y sondear cómo afronta el cerebro las reglas cambiantes.
Quién lo creó y cuándo
No hay un único inventor. El aprendizaje por reversión proviene de la tradición conductista de los estudios de reversión de discriminaciones de los años 40 y 50, asociada a investigadores como Harry Harlow, los Kendler y N. J. Mackintosh. La versión probabilística moderna usada en neuroimagen humana suele atribuirse a Roshan Cools, Luke Clark y sus colaboradores en Cambridge hacia 2002, que se apoyaron en ese linaje más antiguo en lugar de fundarlo.
Cómo entrenar
Trata un mal resultado como ruido, no como prueba: solo concluye que la regla se ha invertido tras varios fallos seguidos de la opción que creías mejor. Lleva un recuento mental aproximado de los resultados recientes en lugar de reaccionar al último intento, y una vez que hayas cambiado, comprométete con la nueva elección el tiempo suficiente para confirmarla antes de volver a dudar.
Cuánto practicar
Funcionan mejor las sesiones cortas y regulares: en torno a 5 o 10 minutos, unas pocas veces por semana. La habilidad que se ejercita es la actualización rápida, así que varios bloques cortos superan a una sola sesión larga, donde el cansancio te vuelve demasiado nervioso o demasiado rígido.
Base de evidencia
La evidencia es más fuerte para lo obvio: con la práctica mejoras en la propia tarea y en distinguir cambios reales de regla de las rachas de mala suerte, y la tarea refleja de forma fiable las diferencias de flexibilidad entre grupos en la investigación clínica y neurocientífica. Las afirmaciones de que este tipo de entrenamiento se transfiere ampliamente a la toma de decisiones cotidiana o a una 'flexibilidad cognitiva' general son débiles y discutidas, y la literatura más amplia sobre entrenamiento mental da pocas razones para esperar transferencia lejana, así que toma con cautela cualquier gran promesa.
Recomendaciones
Antes de cambiar, pregúntate si realmente has visto un patrón de fallos o solo un resultado desafortunado, y cambia únicamente cuando la evidencia se haya acumulado.
Preguntas frecuentes
¿Por qué perdí aunque elegí la opción 'correcta'?
Porque la opción buena solo acierta la mayoría de las veces, no siempre. Una sola pérdida suele ser puro ruido; la regla no se ha invertido necesariamente.
¿Cómo sé cuándo se ha invertido de verdad la regla?
Busca una serie de malos resultados de la opción que antes funcionaba, no un único mal resultado. Cuando los fallos se agrupan, esa es tu señal para cambiar.
¿Esto me hará más flexible en la vida real?
Te hará mejorar de forma fiable en esta tarea y en otras parecidas. La transferencia amplia a las decisiones cotidianas no está bien respaldada, así que disfruta de la práctica sin contar con cambios que te transformen la vida.
Variantes
Las variantes cambian la dificultad ajustando cuán fiable es la opción buena (por ejemplo 80/20 frente a un 70/30 más ruidoso), con qué frecuencia ocurren las reversiones, si sigues dos opciones o varias, y si la retroalimentación llega como recompensas, como pérdidas o ambas. Las versiones deterministas eliminan por completo el azar y simplemente invierten una regla que siempre se cumple.