Deux équipes projets du centre Inria Bordeaux Sud-Ouest ont mis au point un modèle permettant de prédire les conséquences des décisions en matière de santé publique face à une situation pandémique. (Crédits : Inria Bordeaux Sud-Ouest)
LA TRIBUNE – Comment avez-vous mis au point cette plateforme EpidemiOptim ?
MELANIE PRAGUE, chargée de recherche Inria au sein de l’équipe Sistm (1) - La première étape c’est une bonne estimation sur les données de la dynamique de l’épidémie. On a besoin d’un modèle à compartiments SEIR étendu (susceptible-exposé-infectieux-remis) pour la Covid-19. Nous avons d’abord intégré les paramètres de diffusion du virus grâce aux données d’hospitalisations en France, à partir de la base Si-vic (système d’information pour le suivi des victimes d’attentats et de situations sanitaires exceptionnelles). A partir de là, on cherche à reconstruire le modèle qui a abouti à ces données en estimant notamment quel est l’effet du confinement et des différentes stratégies d’intervention non-pharmaceutiques. Cela nous donne un modèle de travail qui nous permet ensuite de simuler toutes les trajectoires que l’on souhaite : que ce serait-il passé s’il n’y avait eu aucun confinement, des confinements plus longs ou tous les deux jours, toutes les deux semaines, etc. L’idée de ce modèle développé par l’équipe Sistm est d’évaluer et de prédire l’efficacité potentielle de tous ces scénarios possibles. S’y ajoute une dimension d’apprentissage par renforcement pour améliorer ces prédictions et tenter d’identifier la stratégie optimale par rapport aux objectifs définis. C’est le travail de l’équipe Flowers.
CLÉMENT MOULIN-FRIER, chargé de recherche Inria au sein de l’équipe Flowers (2) - Cette problématique d’apprentissage par renforcement revient à considérer un agent qui peut agir et percevoir dans un environnement précis. Par exemple, on observe comment un robot réagit en fonction des règles du jeu de Go : à chaque instant ce robot peut émettre une action, mesurer son effet sur l’environnement et recevoir ou pas une récompense. Pour le jeu de Go, l’enjeu est finalement relativement simple : si la partie est gagnée, il y a une récompense, si elle est perdue, il n’y en a pas. Mais le but de l’apprentissage par renforcement est, à partir de l’interaction entre l’agent et l’environnement, de savoir comment cet agent peut apprendre une stratégie d’actions cumulées de façon à obtenir une récompense sur le long terme. C’est cette notion de long terme qui est fondamentale parce qu’à force d’entraînement elle peut amener l’agent à prendre des décisions qui ne génèreront pas de récompense à court terme mais de façon à obtenir une meilleure récompense à long terme.
Comment est-ce que cette logique d’apprentissage se transpose dans votre modèle épidémiologique ?
MP - Nous avons pris un modèle à compartiments qui modélise des effets moyens dans une population donnée en fonction des paramètres de transmission du virus et nous avons fixé deux règles du jeu : réduire autant que possible le nombre de morts, d’une part, et la perte de PIB, qui traduit l’impact économique. Ces deux couts sont représentés par des fonctions des paramètres et des compartiments du modèle épidémiologique. L’objectif fixé au robot est en quelque sorte d’arriver à minimiser simultanément ces deux paramètres sur le long terme.
CMF - Cela implique beaucoup de variables telles que le nombre de personnes infectées ou hospitalisées, le taux de propagation, etc. Le modèle observe ces variables et émet une action - est-ce qu’on confine ou pas la semaine prochaine – qui va changer l’environnement puis, une semaine plus tard, le modèle va émettre à nouveau une action en fonction de l’évolution de ces variables et ainsi de suite. Le but de l’apprentissage par renforcement est, au fur et à mesure, d’affiner cette stratégie de façon à minimiser les deux coûts sanitaires et économiques, y compris en prenant des décisions qui peuvent paraître étonnantes à court terme mais qui sont pertinentes à long terme. D’où la complexité du système.
MF - Parallèlement à cela, on affine au fil du temps les données entrantes des paramètres épidémiologiques pour limiter les incertitudes parce que, depuis un an, on a beaucoup appris sur la diffusion du Covid-19.
Comment fonctionne concrètement ce renforcement ?
CMF - L’algorithme par renforcement a accès à ces données épidémiologiques et commence par essayer des actions aléatoires chaque semaine et regarde le résultat et la récompense associée. L’idée est de réitérer cela plusieurs fois, des milliers de fois, et en fonction de tous ces résultats, l’algorithme sera capable d’améliorer ses stratégies de façon à obtenir une meilleure récompense. L’enjeu étant, in fine, d’identifier la solution optimale. Sachant que chaque simulation ne prend que quelques secondes.
Dans quelle mesure cette plateforme permet-elle d’améliorer la prise de décision dans la vraie vie ?
MP - La vocation principale de la plateforme est de fournir un outil d’aide à la décision en matière de santé publique. Il comporte trois aspects : le modèle épidémiologique, le modèle d’apprentissage et les règles et objectif à définir. Dans la réalité, c’est ce 3e aspect qui intéresse les décideurs : faut-il plutôt préserver les vies humaines ou les coûts économiques ? Avec des choix très différents en fonction des pays. De notre côté, nous avons conçu le modèle pour qu’il soit le plus modulable possible et que chacun puisse fixer ses propres objectifs pour effectuer des simulations épidémiologiques en fonction de ces objectifs-là. Mais, aujourd’hui, ce modèle n’a pas été utilisé en conditions réelles par des décideurs politiques. Nous n’en sommes pas encore là ! L’objectif est d’abord de faciliter les collaborations entre les chercheurs en épidémiologie (modèles), les décideurs politiques (fonctions de coût, état des actions) et les spécialistes de l’optimisation (algorithme d’apprentissage).
CMF - Après avoir fait ce travail de modélisation transdisciplinaire, on constate très clairement que le problème est par nature multi-objectifs. C’est-à-dire qu’il y a plusieurs coûts que l’on va chercher à optimiser et qu’ils sont, en général, contradictoires : si on minimise le coût sanitaire, on augmenter le coût économique et vice-versa. Et si on ajoute à ça, par exemple, des coûts sociaux ou psychologiques, ç’est encore plus complexe ! Donc, au final, si on ne poursuit qu’un seul de ces objectifs, la stratégie est relativement simple. Mais si on cherche à combiner plusieurs objectifs, c’est là que c’est à la fois difficile et passionnant à analyser. Et ce qui est aussi apparu clairement c’est que les solutions optimales identifiées par le modèle sont très différentes selon le ou les objectifs recherchés. Finalement, nous en tant que chercheurs, on n’a pas forcément grand-chose à dire sur où est-ce qu’il faudrait placer les différents curseurs. Mais on cherche à permettre aux décideurs politiques de pouvoir simuler en quelques secondes les conséquences prédites de tel ou tel choix. Avec les limites et les précautions inhérentes à un modèle mathématique qui comporte évidemment des incertitudes. Mais si ça permet de proposer une visualisation des conséquences, c’est déjà utile.
Sur ce point, comment avez-vous sélectionné les données qui nourrissent votre modèle ?
MP - Au niveau des variables de coûts, le nombre de décès est très vite arrivé comme la donnée la plus factuelle et évaluable sur une année. Ce qui est beaucoup moins évident pour, par exemple, le taux de saturation des services de réanimation qui dépend d’autres paramètres conjoncturels. Sur le plan économique, on a travaillé avec des économistes pour établir un critère fiable. On aurait évidemment pu faire des choix différents et aussi intégrer plus de fonctions de coûts mais cela n’aurait pas nécessairement entraîné des stratégies fondamentalement différentes.
CMF - D’autant que l’enjeu de ce modèle est aussi son accessibilité en permettant à des gens qui ne sont ni informaticiens, ni épidémiologistes de l’utiliser. Par ailleurs, le choix de ces données entrantes et des objectifs à atteindre relève aussi des décisions politiques.
Après la publication d’un article scientifique, quelle sera la suite des évènements pour cette plateforme?
MP - L’objectif va être d’appliquer la méthodologie développée avec EpidemiOptim à d’autres questions. Ça pourra concerner la stratégie de vaccination, par exemple, l’optimisation de l’allocation des doses vaccinales dans l’hypothèse d’une 3e dose dû à la la perte d’immunité. L’enjeu sera alors de mesurer et de prédire quelles classes d’âge revacciner, à quel rythme, en cherchant toujours à minimiser le nombre de morts et les coûts économiques tout en prenant en compte un nombre de doses contraint. L’idée est donc d’utiliser les mêmes outils pour répondre à des questions différentes !
(1) Flowers est une équipe-projet Inria, commune avec l’université de Bordeaux et Ensta ParisTech
(2) Sistm est une équipe-projet Inria, commune avec l’université de Bordeaux et l’Inserm