Les rats échangent des récompenses initiales contre des opportunités d'apprentissage à long terme

Les rats échangent des récompenses initiales contre des opportunités d’apprentissage à long terme

Accueil » Parents » Étapes » Enfant » Les rats échangent des récompenses initiales contre des opportunités d’apprentissage à long terme

Les scientifiques ont fourni des preuves du contrôle cognitif de l’apprentissage chez les rats, montrant qu’ils peuvent estimer la valeur à long terme de l’apprentissage et adapter leur stratégie de prise de décision pour tirer parti des opportunités d’apprentissage.

Les résultats suggèrent qu’en prenant plus de temps pour prendre une décision, les rats peuvent sacrifier des récompenses immédiates pour augmenter leurs résultats d’apprentissage et obtenir de plus grandes récompenses tout au long d’une tâche. Les résultats sont publiés aujourd’hui dans eVie.

Un principe établi des neurosciences comportementales est le compromis vitesse-précision, qui est observé dans de nombreuses espèces, des rongeurs aux primates. Le principe décrit la relation entre la volonté d’un individu de réagir lentement et de faire moins d’erreurs par rapport à sa volonté de réagir rapidement et de risquer de faire plus d’erreurs.

“De nombreuses études dans ce domaine se sont concentrées sur le compromis vitesse-précision, sans tenir compte des résultats d’apprentissage”, explique l’auteur principal Javier Masís, qui était à l’époque titulaire d’un doctorat. étudiant au Département de biologie moléculaire et cellulaire et au Center for Brain Science de l’Université de Harvard, aux États-Unis, et est maintenant chercheur postdoctoral présidentiel au Princeton Neuroscience Institute de l’Université de Princeton, aux États-Unis “Nous avons cherché à étudier le difficile problème du choix intertemporel qui existe lorsque vous avez la possibilité d’améliorer votre comportement par l’apprentissage.”

Pour leur étude, Masís et ses collègues ont d’abord cherché à établir si les rats étaient capables de résoudre le compromis vitesse-précision. L’équipe a mis en place une expérience où les rats, après avoir vu l’un des deux objets visuels dont la taille et la rotation pouvaient varier, ont décidé si l’objet visuel était celui qui correspondait à une réponse gauche ou à droite, et ont léché le toucher correspondant. -port sensible une fois qu’ils avaient décidé. Si les rats léchaient le bon port, ils étaient récompensés avec de l’eau, et s’ils léchaient le mauvais port, ils recevaient un délai d’attente.

L’équipe a étudié la relation entre le taux d’erreur (ER) et le temps de réaction (RT) au cours de ces essais, à l’aide du modèle Drift-Diffusion (DDM), un modèle de prise de décision standard en psychologie et en neurosciences dans lequel le décideur accumule des preuves au fil du temps. jusqu’à ce que le niveau de preuve d’une alternative atteigne un seuil.

Le niveau de seuil du sujet contrôle le compromis vitesse-précision. L’utilisation d’un seuil bas donne des réponses rapides mais sujettes aux erreurs, tandis qu’un seuil élevé donne des réponses lentes mais précises. Pour chaque niveau de difficulté, cependant, il existe un meilleur seuil à définir qui équilibre de manière optimale la vitesse et la précision, permettant au décideur de maximiser son taux de récompense instantané (iRR). À travers les difficultés, ce comportement peut être résumé par une relation entre ER et RT appelée la courbe de performance optimale (OPC). Après avoir appris pleinement la tâche, plus de la moitié des rats entraînés ont atteint l’OPC, démontrant que des rats bien entraînés résolvent le compromis vitesse-précision.

Les rats échangent des récompenses initiales contre des opportunités d'apprentissage à long terme

Au début de l’entraînement, cependant, tous les rats ont abandonné plus de 20 % de leur iRR, alors que vers la fin, la plupart des rats ont presque optimisé l’iRR. Cela a suscité la question suivante : si les rats maximisent les récompenses instantanées à la fin de l’apprentissage, qu’est-ce qui régit leur stratégie au début de l’apprentissage ?

Pour répondre à cette question, l’équipe a adapté le DDM en tant que réseau neuronal récurrent (RNN) capable d’apprendre au fil du temps et a développé le modèle de dérive-diffusion d’apprentissage (LDDM), leur permettant d’étudier comment l’apprentissage perceptif à long terme dans de nombreux essais est influencé par le choix du moment de la décision dans les essais individuels.

Le modèle a été conçu dans un souci de simplicité, pour mettre en évidence les principaux compromis qualitatifs entre la vitesse d’apprentissage et la stratégie de décision. Les analyses de ce modèle suggèrent que les rats adoptent une stratégie “non gourmande” qui échange les récompenses initiales pour donner la priorité à l’apprentissage et donc maximiser la récompense totale au cours de la tâche. Ils ont également démontré que des temps de réaction initiaux plus longs entraînaient un apprentissage plus rapide et une récompense plus élevée, à la fois dans un environnement expérimental et simulé.

Les auteurs appellent à de nouvelles études pour consolider ces résultats. L’étude actuelle est limitée par l’utilisation du DDM pour estimer l’amélioration de l’apprentissage. Le DDM, et donc le LDDM, est un modèle simple qui est un outil théorique puissant pour comprendre des types spécifiques de comportement de choix simple qui peuvent être étudiés en laboratoire, mais il n’est pas capable de décrire quantitativement un comportement de prise de décision plus naturaliste. De plus, l’étude se concentre sur une tâche de perception visuelle ; les auteurs encouragent donc la poursuite du travail avec d’autres tâches apprenables à travers les difficultés, les modalités sensorielles et les organismes.

“Nos résultats offrent une nouvelle vision du compromis vitesse-précision en montrant que le comportement de prise de décision perceptif est fortement façonné par l’exigence stricte d’apprendre rapidement”, affirme l’auteur principal Andrew Saxe, auparavant associé de recherche postdoctoral au Département de Psychologie expérimentale, Université d’Oxford, Royaume-Uni, et maintenant Sir Henry Dale Fellow et professeur associé à la Gatsby Computational Unit et au Sainsbury Wellcome Center, University College London, Royaume-Uni.

“Un principe clé que notre étude propose”, explique Javier Masís, “est que les agents naturels tiennent compte du fait qu’ils peuvent s’améliorer grâce à l’apprentissage, et qu’ils peuvent façonner et façonnent le taux de cette amélioration par leurs choix. Non seulement le monde dans lequel nous vivons n’est pas stationnaire ; nous sommes également non stationnaires, et nous en tenons compte lorsque nous nous déplaçons dans le monde en faisant des choix.”

“Vous n’apprenez pas le piano en jouant occasionnellement sur les touches”, ajoute Saxe. “Vous décidez de pratiquer, et vous pratiquez au détriment d’autres activités plus immédiatement gratifiantes parce que vous savez que vous vous améliorerez et que cela en vaudra probablement la peine à la fin.”

★★★★★

A lire également