Archive pour le Tag 'l’évaluation'

Pesticides : La question de l’évaluation

 

 

….En tant que membres du Comité Scientifique et Technique du plan Ecophyto, comité indépendant des pilotes du plan, nous avons notamment pour mission de guider le choix des indicateurs. Dans ce texte, nous souhaitons préciser la nature de ces derniers et en clarifier les enjeux. ( dans The Conversation)

La mise en œuvre, le suivi et l’évaluation des politiques publiques nécessitent la définition d’indicateurs quantitatifs. Mais pour construire des indicateurs pertinents, il faut faire des choix quant à la nature de ce que l’on mesure, et à la façon dont on le définit.

Du fait de ces choix, les indicateurs, y compris agro-environnementaux, sont par nature imparfaits. Une quantification des ventes décrira imparfaitement la toxicité et l’écotoxicité des produits, mais même un indicateur spécifique de la toxicité pose le problème de la définition des écosystèmes et espèces touchées : humains, insectes, faune du sol ou des cours d’eau… tous sont différents par leur exposition, mais surtout par leur sensibilité aux différentes substances actives.

Face à cette complexité, il est utile de se rappeler qu’un indicateur doit éclairer une décision. Il faut trouver un compromis entre pertinence et accessibilité des données mobilisées pour le calculer.

Devant la difficulté de connaître l’utilisation de produits dans les champs, il a été choisi, aux niveaux français comme européen, de mesurer les ventes au niveau des distributeurs, par année civile.

Il faut garder à l’esprit que la quantification des ventes ne permet pas de suivre les pratiques agricoles en temps réel, puisque les produits sont achetés à l’avance et que les agriculteurs adaptent leur utilisation au statut agronomique de leurs parcelles (mauvaises herbes, maladies, infestations par des insectes…).

En France, le suivi des ventes a été rendu possible par la création de la redevance pour pollutions diffuses (RPD) en 2008, qui est une taxe payée par les utilisateurs de produits phytopharmaceutiques. Sa mise en œuvre a permis l’enregistrement de toutes les ventes de produits phytopharmaceutiques en France dans une base de données (BNVD).

À partir des données de vente, plusieurs indicateurs ont été proposés dans le débat public. Nous les présentons brièvement ci-après.

La QSA correspond à la masse totale de substances actives dans les produits vendus au cours d’une année civile. Sa simplicité d’utilisation apparente voile un travers majeur : elle cumule des substances ayant des doses d’application par hectare très différentes, ce qui revient à additionner des choux et des carottes.

Par analogie, c’est comme si l’industrie pharmaceutique additionnait les masses de médicaments ayant des posologies radicalement différentes. Or, pour les traitements phytopharmaceutiques, les « posologies » varient fréquemment d’un facteur 1 à 100. Des substances potentiellement très toxiques, mais actives à beaucoup plus faible dose peuvent ainsi se retrouver « masquées » par d’autres substances.

Par exemple, les insecticides sont généralement efficaces à très faibles doses. Par conséquent, ces derniers ne représentent que 1,8 % de la QSA moyenne annuelle sur la période 2012-2022, alors qu’ils représentent environ 15 % des traitements.

Par ailleurs, l’industrie phytopharmaceutique tend à produire des substances de plus en plus légères pour une efficacité donnée. Par conséquent, la QSA peut baisser au cours du temps sans que cela soit lié à une diminution du nombre de traitements, ou à une baisse de toxicité des substances utilisées.

Par exemple, un herbicide en cours d’homologation serait efficace à un gramme par hectare, soit plus de 1000 fois moins que le glyphosate, efficace à plus d’un kilogramme à l’hectare. Si cette substance venait à remplacer les herbicides actuels, et notamment le glyphosate, la QSA pourrait baisser soudainement d’un tiers, sans que les pratiques ni leur toxicité potentielle n’aient changé.

Le NoDU agricole est l’indicateur de référence du plan Ecophyto depuis sa création en 2008. Historiquement, il a été construit par des scientifiques d’INRAE en lien avec les pouvoirs publics pour pallier les faiblesses de la QSA.

Sans rentrer dans les détails, on peut dire qu’il corrige le problème de la grande diversité des doses auxquelles sont utilisées les substances actives, en divisant chaque quantité de substance commercialisée par une dose de référence à l’hectare, appelée « dose unité » (DU).

Le NoDU correspond ainsi au cumul des surfaces (en hectares) qui seraient traitées à ces doses de référence. Cette surface théorique est supérieure à la surface agricole française, puisque les cultures sont généralement traitées plusieurs fois.

Le calcul de la dose unité, complexe et détaillé au paragraphe suivant, s’appuie sur les doses maximales autorisées lors d’un traitement (doses homologuées). Ces doses sont validées par l’Anses sur la base de l’efficacité et de la toxicité et écotoxicité de chaque produit.

Dans le NoDU, les substances appliquées à une dose inférieure à 100 g par hectare sont bien prises en compte : elles représentent la large majorité du NoDU. Dans la QSA au contraire, les quelques substances appliquées à plus de 100 g par hectare représentent la grande majorité de la QSA et invisibilisent les autres substances.

Bien que les indications données par le NoDU permettent de caractériser l’évolution du recours aux produits phytopharmaceutiques, il pose néanmoins des problèmes, liés notamment à la complexité du calcul des doses unités.

Commençons par préciser que lorsqu’une substance est présente dans plusieurs produits commercialisés, chaque produit va être homologué sur plusieurs cultures et pour différents usages, potentiellement à différentes doses.

La dose unité est définie, de manière complexe mais précise, comme la moyenne des maxima, par culture, des doses homologuées pour une substance une année civile donnée. Cette moyenne est pondérée par la surface relative de chaque culture en France.

Chaque année, le NoDU est calculé avec les doses unités de l’année et les NoDU des années précédentes sont recalculés avec ces doses unités pour éviter que les changements réglementaires affectent les tendances observées.

Le calcul des doses unités, tout à fait justifié du point de vue conceptuel, entraîne en pratique d’importantes difficultés :

  • la définition est difficile à comprendre, ce qui en soi est un problème pour un indicateur aussi important ;
  • l’utilisation des surfaces de culture implique d’attendre la publication de ces valeurs, ce qui retarde d’autant le calcul du NoDU. Pourtant, tenir compte des surfaces cultivées n’a qu’un impact très faible sur le résultat obtenu au niveau national. C’est également un frein à la généralisation du calcul à d’autres échelles géographiques ;
  • l’utilisation des maxima des doses homologuées augmente la sensibilité du calcul aux évolutions réglementaires, ainsi qu’aux erreurs potentiellement présentes dans les bases de données.

Cependant, et malgré les évolutions de surfaces de culture et de réglementation d’une année à l’autre, l’utilisation des doses unités d’une année ou d’une autre ne font varier la valeur du NoDU que de quelques pourcents au niveau national.

Pour faciliter la compréhension et le calcul du NoDU, tant au niveau régional qu’européen, nous recommandons de définir la dose unité d’une substance comme la médiane de toutes ses doses homologuées – plutôt que la moyenne des maxima des doses homologuées par culture, pondérée par la surface relative de chaque culture.

Cette modification ne remettrait pas en cause le principe général du NoDU pour caractériser les ventes des produits phytopharmaceutiques en tenant compte des doses homologuées.

Enfin, les variations du NoDU en fonction l’année de calcul des doses unités deviendraient indétectables. De plus, nous avons montré que l’indicateur résultant est extrêmement corrélé au NoDU actuel. De sorte que même si les valeurs absolues sont différentes, les évolutions restent identiques.

Depuis 2009, première année de collecte des données de vente, le NoDU a augmenté de 15 à 20 % jusqu’en 2014, puis s’est stabilisé jusqu’en 2017. S’en est suivi deux années exceptionnelles d’augmentation (stockage en 2018) puis de diminution (déstockage en 2019) liées à l’annonce, en 2018, de l’augmentation de la RPD au 1er janvier 2019. Depuis 2020, la valeur du NoDU s’est alors stabilisée à nouveau à un niveau proche de celui de 2009-2012.

Cette dernière baisse pourrait être liée à l’augmentation de la RPD en 2019 mais aussi à des conditions climatiques globalement défavorables aux pathogènes et aux ravageurs ces trois dernières années.

La relative stabilité du NoDU pour l’ensemble des substances entre 2009 et 2022 peut donner une impression d’immobilisme. Cependant, le plan Ecophyto prévoit aussi le calcul du NoDU sur la base plus restreinte des substances identifiées dans le code du travail comme cancérogènes, mutagènes ou toxiques pour la reproduction (CMR) aux effets avérés ou supposés (CMR1) ou suspectés (CMR2). Ces substances particulièrement toxiques doivent en effet être éliminées en priorité.

Or, le NoDU pour les CMR1, les plus dangereuses, a baissé de 88 % entre 2009 et 2020 (voir graphe ci-dessous), avant d’approcher 0 % en 2022. Les CMR dans leur ensemble ont vu leur NoDU diminuer de 40 % entre 2009 et 2020. Cette baisse met en évidence les changements importants permis par l’évolution réglementaire d’une part, et par l’adaptation des agriculteurs à ces évolutions d’autre part

Autrement dit, oui, le NoDU a été utile pour quantifier la limitation de l’usage des produits phytopharmaceutiques dangereux. De plus, et contrairement à ce qui aurait pu arriver, cette élimination des produits les plus dangereux, et potentiellement les plus efficaces, n’a pas entraîné une augmentation des traitements dans leur ensemble.

C’est d’autant plus remarquable que l’interdiction de traitements de semences (par exemple néonicotinoïdes sur colza), non inclus dans le NoDU, a sans doute entraîné l’utilisation de traitements en végétation (par exemple contre les altises à l’automne) qui eux sont comptabilisés dans le NoDU. Il faudrait donc profiter de la réflexion actuelle sur les indicateurs pour intégrer l’ensemble des substances actives utilisées pour les traitements de semences dans le calcul.

Au niveau européen, d’autres indicateurs ont été proposés : les HRI-1 et 2 (Harmonized Risk Indicator, prévu par la directive n°2009/128) et les F2F-1 et 2 (Farm to Fork, prévu dans la stratégie de la Ferme à la Table).

Les indicateurs HRI-1 et F2F-1 sont jumeaux, puisqu’ils ne diffèrent que par l’éventail des substances prises en compte et par les périodes de référence considérées. Tous deux prennent en compte la masse de substances actives, comme le fait la QSA, mais en les pondérant en fonction de leur appartenance à des groupes de « risque » : 1 pour les substances de faible risque, 8 pour les substances autorisées, 16 pour les substances dont l’interdiction est envisagée, et enfin 64 pour les substances interdites.

Ces indicateurs européens sont problématiques pour plusieurs raisons :

  • tout d’abord les masses ne sont pas rapportées à des doses d’usage ;
  • de surcroît, en France, environ 80 % des substances vendues sont par défaut classées dans le second groupe (substances « autorisées »), ce classement est donc peu discriminant ;
  • enfin, les valeurs de pondération utilisées pour le calcul de ces indicateurs sont arbitraires et ne sont étayées par aucun résultat scientifique.

Le NoDU n’est aujourd’hui utilisé qu’en France mais il suffirait de simplifier son calcul, tel que nous le proposons, pour le rendre utilisable à l’échelle européenne.

Les doses maximales autorisées par application peuvent varier entre pays européens, la dose unité pourrait donc correspondre à la médiane de toutes les doses homologuées en Europe. Le calcul serait simple, pertinent et applicable partout en Europe. Cette méthode pourrait aussi être utilisée pour calculer l’évolution des ventes pour chaque groupe de « risque » défini actuellement au niveau européen.

Une autre option acceptable pourrait être que les indicateurs européens soient modifiés pour utiliser, au sein de chaque groupe, un équivalent au NoDU et non une masse totale de substance. C’est fondamentalement ce que l’agence environnementale allemande propose bien qu’elle critique aussi les coefficients de pondération du HRI-1.

Par ailleurs, il apparaît difficile d’embrasser la complexité de la question de l’utilisation des produits phytopharmaceutiques avec un unique indicateur. Idéalement, il faudrait que le plan Ecophyto se dote d’un panel d’indicateurs complémentaires permettant de décrire :

  • l’intensité de l’utilisation des produits phytopharmaceutiques ;
  • les services agronomiques rendus par les produits phytopharmaceutiques ;
  • les risques pour la santé humaine ;
  • les risques pour la biodiversité.

Quelles que soient les options choisies, le comité alerte sur la nécessité de conserver un indicateur prenant en compte les doses d’usage, tel que le NoDU. Cet indicateur doit continuer d’une part d’être appliqué à l’ensemble des ventes pour caractériser la quantité totale de traitement et d’autre part d’être appliqué aux substances les plus préoccupantes pour quantifier l’effort d’arrêt des substances les plus dangereuses.


Pour citer cet article : Barbu Corentin, Aulagnier Alexis, Gallien Marc, Gouy-Boussada Véronique, Labeyrie Baptiste, Le Bellec Fabrice, Maugin Emilie, Ozier-Lafontaine Harry, Richard Freddie-Jeanne, Walker Anne-Sophie, Humbert Laura, Garnault Maxime, Omnès François, Aubertot JN. « Plan Ecophyto : tout comprendre aux annonces du gouvernement », The Conversation, 21 février 2024.

Logement et performance énergétique: l’évaluation remise en cause

Logement et performance énergétique: l’évaluation remise en cause

Le Conseil d’analyse économique (CAE) souligne l’écart considérable entre les diagnostics officiels et les données réelles des logements et remet donc en cause les conditions de l’évaluation des DPE.

Ces DPE, obligatoires depuis depuis le 1er janvier 2023 évaluent de façon très théorique la performance énergétique. les logements étiquetés G+ sont interdits à la location, suivis en 2025, 2028 et 2034 de l’ensemble des logements G, F et E, synonymes de passoires thermiques, ces logements qui laissent passer le froid en hiver et le chaud en été. A l’inverse, en haut du classement, les classes A, B, C, qui se retrouvent surtout dans le parc immobilier neuf, et même D, se retrouvent dans les habitats sains. Cet étiquetage est indispensable ne serait-ce que pour mener à bien des travaux de rénovation.

D’après un large panel, l’étude l’écart de consommation d’énergie au mètre carré entre un habitat mal classé et un bien classé est six fois moins fort que celui prédit par le DPE. En théorie, les logements étiquetés A et B n’excèdent pas une consommation moyenne de 83 kilowattheures par mètre carré et par an, tandis que les G consomment 560% de plus avec 548 kWh/m²/an. Sur le terrain, l’écart n’est « que » de + 85% et ce quelle que soit la surface.

En clair le conseil d’analyse économique remet sérieusement en cause la pertinence de la mesure de performance énergétique qui dépend surtout en réalité du comportement des ménages.

Logement et performance énergétique: l’évaluation remise en cause

Logement et performance énergétique: l’évaluation remise en cause

Le Conseil d’analyse économique (CAE) souligne l’écart considérable entre les diagnostics officiels et les données réelles des logements et remet donc en cause les conditions de l’évaluation des DPE.

Ces DPE, obligatoires depuis depuis le 1er janvier 2023 évaluent de façon très théorique la performance énergétique. les logements étiquetés G+ sont interdits à la location, suivis en 2025, 2028 et 2034 de l’ensemble des logements G, F et E, synonymes de passoires thermiques, ces logements qui laissent passer le froid en hiver et le chaud en été. A l’inverse, en haut du classement, les classes A, B, C, qui se retrouvent surtout dans le parc immobilier neuf, et même D, se retrouvent dans les habitats sains. Cet étiquetage est indispensable ne serait-ce que pour mener à bien des travaux de rénovation.

D’après un large panel, l’étude l’écart de consommation d’énergie au mètre carré entre un habitat mal classé et un bien classé est six fois moins fort que celui prédit par le DPE. En théorie, les logements étiquetés A et B n’excèdent pas une consommation moyenne de 83 kilowattheures par mètre carré et par an, tandis que les G consomment 560% de plus avec 548 kWh/m²/an. Sur le terrain, l’écart n’est « que » de + 85% et ce quelle que soit la surface.

En clair le conseil d’analyse économique remet sérieusement en cause la pertinence de la mesure de performance énergétique qui dépend surtout en réalité du comportement des ménages.

Docimologie: l’évaluation en question

Docimologie: l’évaluation en question

Science des examens et des concours, la docimologie, de « dokimè » (épreuve) et « logos » (science) trouve son origine dans les travaux sur la validité des systèmes de notation du psychologue français Henri Piéron. C’est en 1922 qu’il propose le concept et lance des recherches autour des résultats du certificat d’études primaires. Celles-ci seront popularisées par son ouvrage Examens et docimologie publié en 1963, suivi en 1971 par le Précis de docimologie de Gilbert Landsheere. Ces travaux fondateurs évoquent, de manière originale, le comportement « des examinés et des examinateurs » afin de nous faire prendre conscience des biais et des incertitudes qui pèsent sur les notations et les évaluations. La préoccupation est pourtant loin d’être nouvelle. L’invention même de la note est le fruit d’une longue histoire. Alors que les États-Unis se dirigent dès 1910 vers l’évaluation via les QCM, en France on préfère conserver l’évaluation classique des examens avec des réponses rédigées.

par Nadir Altinok
Maître de conférences, IUT de Metz, UMR BETA, Université de Lorraine

Claude Diebolt
Directeur de Recherche au CNRS, UMR BETA, Université de Strasbourg dans The Conversation

Comment fait-on pour juger une copie d’examen ? Qu’en est-il de la pertinence des notes en cas de répétition de l’examen ou de changement d’examinateurs ? Répondre à ces questions renvoie précisément aux travaux fondateurs de la docimologie. Ils montrent, à partir d’une analyse de la variance, que la part de l’explication d’une note serait liée, à hauteur de 40 %, aux compétences de l’élève. En corollaire, 60 % résulteraient de l’identité de l’examinateur.

Si la méthode utilisée par ces travaux précurseurs est critiquable, ils soulignent néanmoins toute l’ambiguïté entourant la justification d’une note. Henri Piéron ira même jusqu’à dire que « pour prédire la note d’un candidat, il vaut mieux connaître son examinateur que lui-même ! »

Quant aux psychologues Laugier et Weinberg, ils tenteront de déterminer le nombre de corrections nécessaires pour aboutir à une note qui soit « juste ». Ce faisant, mobilisant la formule de Spearman-Brown, ils aboutiront au constat, qu’en philosophie par exemple, il faudrait 127 correcteurs pour aboutir à une note équitable.

Cette polémique sur la difficile notation des copies se retrouve régulièrement en première ligne lors des corrections du baccalauréat. Une recherche de 2008 ira même jusqu’à évoquer une sorte de loterie des notes au bac.

En fait, au-delà des polémiques, la docimologie soulève une question majeure. Les notes d’une classe doivent-elles, comme il est très souvent le cas, correspondre à une distribution de Gauss, c’est-à-dire avec quelques élèves « faibles », quelques élèves « forts » et la grande majorité des élèves dans la « moyenne », à l’image de la tyrannie de la Loi Normale qui a régné au Japon entre 1955 et 2000 ?

Un dilemme de taille renvoie en effet, quasi systématiquement, à la moyenne des notes qui induit inévitablement une forme de hasard. Une moyenne trop élevée pourrait signifier une mauvaise appréciation du niveau des élèves, tandis que l’inverse pourrait suggérer des critères de notation trop stricts. Mais, si la majorité des élèves ont une note entre 8 et 12, à quoi bon utiliser une échelle de notation de 0 à 20 ?

Au-delà des moyennes, le bon sens impose de prendre en compte, avec plus d’attention, l’écart-type, c’est-à-dire l’étendue des notes, de la plus basse à la plus haute. Ce faisant, il est aisé d’imaginer qu’une matière d’enseignement pourrait avoir une influence déterminante sur la moyenne générale dès lors que l’écart-type des notes serait plus élevé que celui des autres matières enseignées.

En définitive, quelle est donc la finalité d’une note ? S’agit-il d’apprécier le niveau de compétence et les savoirs des élèves à un instant T, ou d’employer la notation tel un outil afin de classer, si ce n’est de filtrer les élèves, dans l’idée d’aboutir à une allocation optimale des talents dans la société ?

Niveau des élèves français : une question méthodologique !

Niveau des élèves français : une question méthodologique de l’évaluation !

Comment le niveau des élèves évolue-t-il ? Progresse-t-il ? Baisse-t-il ? Ces questions préoccupent vivement parents, enseignants et politiques qui scrutent avec attention les informations que les enquêtes internationales leur délivrent régulièrement sur les performances des élèves.

Un article intéressant mais qui ne saurait expliquer le très bas niveau des élèves français par des questions méthodologiques concernant l’évaluation. Une explication un peu courte pour expliquer que le niveau français se situe dans le fond des classements internationaux NDLR

L’une des évaluations les plus médiatisées est PISA (Programme for International Student Assessment), qui teste les compétences des élèves de 15 ans en lecture, sciences et mathématiques dans plus de 80 pays. Développée par l’International Association for the Evaluation of Educational Achievement (IEA), l’enquête PIRLS (Progress for International Reading Literacy Study) se centre de son côté sur un public plus jeune, mesurant les compétences en lecture et compréhension en quatrième année de scolarité obligatoire.

Ces études peuvent faire l’objet d’interprétations biaisées ou simplificatrices. Elles sont surtout, trop souvent, réduites à de simples classements bien qu’elles offrent un panorama beaucoup plus riche et complexe des évolutions éducatives.

Alors que paraissent ce 16 mai 2023 les résultats de la dernière enquête PIRLS (PIRLS 2021), revenons sur les principes qui gouvernent ces enquêtes pour mieux en comprendre les enjeux.

Comment se déroulent les tests avec les élèves ?
L’objectif de PIRLS est de mesurer, en fin de quatrième année de scolarité obligatoire, en classe de CM1 donc pour la France, la capacité des écoliers à rechercher de l’information pertinente dans un texte, à le comprendre, ceci afin d’effectuer des inférences (c’est-à-dire des déductions, en fonction de leurs connaissances antérieures) sur la thématique abordée. Contrairement à certaines évaluations nationales, PIRLS ne concerne en rien la maîtrise de l’orthographe et des règles de grammaire. L’enquête se concentre sur la capacité des élèves à effectuer des raisonnements structurés.

Comme toutes les enquêtes internationales, PIRLS est effectuée par le biais de « cahiers tournants » (en anglais des « booklets »). En termes très concrets, la totalité des questions (qu’on appelle des « items ») n’est pas posée à l’ensemble des élèves : seuls deux exercices, parmi 18, sont soumis à évaluation.

En somme, sur un total de 288 items, un élève n’est interrogé que sur environ 32 items, soit environ 11 % de ceux-ci. Ce faisant, en mobilisant une méthode spécifique (appelée « théorie de réponse à l’item »), il devient statistiquement possible de prédire la performance de chaque élève pour l’ensemble des questions. Ainsi, l’on nommera « valeur plausible », le score de chaque élève qui, en vérité, demeure inconnu !

À lire aussi : Aider à comprendre les histoires, ça s’apprend aussi !

Le « P » de PIRLS signifiant « Progress », l’International Association for the Evaluation of Educational Achievement (IEA) a rapidement compris que, par-delà tout classement de pays, c’est l’évolution de la performance des élèves, entre 2001 et 2021, qui était statistiquement significative.

Bien plus que le classement, c’est la distance relative de la France vis-à-vis des autres pays qui importe. Dans cette perspective, la comparaison de la France avec la Finlande s’avère particulièrement instructive. La France – classée en milieu de tableau – obtient un score d’environ 35 points inférieurs à ceux du pays scandinave en 2021. Cet écart de points pèse davantage dans la balance que le classement à proprement parler.

Comment comprendre le classement d’un pays ?
Les scores publiés sont avant tout des projections statistiques de la performance d’un pays. Dans le cas de PIRLS, l’erreur type est d’environ 3 points ce qui veut dire que les scores d’un pays peuvent varier de 3 points. En clair, si l’on désire comparer deux pays, une différence de 6 points n’aura guère de sens (puisqu’elle équivaut à l’addition des erreurs types des deux pays).

[Près de 80 000 lecteurs font confiance à la newsletter de The Conversation pour mieux comprendre les grands enjeux du monde. Abonnez-vous aujourd’hui]

À titre d’exemple, un écart de 10 points n’est pas toujours significatif statistiquement. Or, celui-ci peut aisément se transformer en 5 voire 6 places de perdues dans le classement international. C’est le cas dans l’enquête PIRLS 2021, où seulement 10 points séparent la France et l’Allemagne. L’écart est de l’ordre de 0,3 point quand on le rapporte à une échelle de notes de 1 à 20, ce qui est faible statistiquement. Or, l’Allemagne est classée au 26e rang, la France, au 32e. Au contraire, la comparaison avec la Finlande représente une différence d’environ 1 point sur notre échelle de notes française, ce qui est clairement plus significatif.

En supposant qu’une année scolaire en primaire apporte 35 points, en tendance, les résultats montrent que la Finlande parvient à faire progresser ses élèves d’environ 1 année de plus que la France. Ce type de mise en perspective est définitivement plus parlant qu’une simple place dans un classement.

Les seuils de performance sont une information particulièrement précieuse dans la lecture de PIRLS. À l’image de ce qui se fait avec le socle commun de compétences développé en France, PIRLS distingue un seuil « minimum » (relatif à la limite au-dessous de laquelle un élève ne peut pas correctement lire et comprendre un texte) de trois autres seuils appelés respectivement « intermédiaire », « élevé » et « avancé ». À titre de comparaison, notons ici que seulement 5 % des élèves français atteignent le seuil « avancé » contre 14 % pour les élèves polonais.

Le recours à l’analyse de l’évolution des seuils de performance peut dès lors s’avérer fort utile. N’oublions jamais qu’une moyenne peut, par définition, cacher des inégalités fortes : par exemple, l’écart entre les seuils extrêmes est plus élevé pour la France (89) que pour la Finlande (82), indiquant un fort niveau d’inégalités. Cet écart a même augmenté de 1 % en France entre 2001 et 2021.

Au-delà des scores, que nous apprennent les enquêtes internationales ?
Est-ce que copier la politique éducative des pays avec de meilleures performances serait une stratégie pertinente afin d’améliorer les scores de la France ? Chaque système éducatif ayant sa propre trajectoire, transposer aveuglement le modèle de pays dont les scores sont élevés n’est pas nécessairement gage de succès. En effet, les récentes expérimentations soulignent l’absence de consensus sur les méthodes les plus efficaces. Quant aux recherches en économie de l’éducation, elles sont relativement pauvres en résultats transposables.

Peut-on faire confiance à l’enquête PIRLS ? À l’image de PISA, elle a des forces et des faiblesses. Une contrainte de taille renvoie, comme évoqué précédemment, à la fâcheuse tendance de vouloir la réduire à son classement. Plusieurs travaux ont, par ailleurs, mis en évidence que certains pays ont volontairement focalisé leurs programmes scolaires sur les compétences évaluées dans les tests internationaux. Notons ici qu’il serait toutefois trompeur de se baser uniquement sur le classement PIRLS pour mesurer l’évolution de la performance française : tous les pays ne participent pas systématiquement à chaque vague d’enquête.

À lire aussi : Maths, lecture : le niveau des élèves baisse-t-il vraiment ?

Mais PIRLS n’est pas qu’un test de performance. Des questionnaires contextuels sont distribués aux parents, aux élèves, aux enseignants et aux directeurs d’écoles. Ce sont donc des milliers d’informations qui sont disponibles et comparables entre les pays, comme la taille des classes, les pratiques pédagogiques, les ressources socio-économiques des élèves…

En fait, la principale limite de PIRLS renvoie surtout à son incapacité de mesurer les « progrès » des élèves : les enquêtes internationales (PISA, TIMSS et PIRLS) n’évaluent pas les mêmes élèves de manière répétée. En guise d’optimisme, nous notons avec intérêt que l’IEA a, tout récemment, décidé de prendre l’initiative de tester les élèves à 12 mois d’intervalle (« PIRLS Longitudinal » et « TIMSS Longitudinal »), précisément dans le but de mesurer leurs possibles progrès… sans la participation officielle de la France toutefois !

Développement durable : L’évaluation indispensable pour éviter la démagogie et l’incohérence

 Développement durable : L’évaluation indispensable pour éviter la démagogie et l’incohérence

Le monde économique est aujourd’hui appelé à placer les critères environnementaux et sociaux au cœur de ses décisions. Une telle transformation impose, en parallèle des mesures d’efficacité et de performance propres à chaque activité, de connaître les impacts environnementaux et sociaux des choix effectués par les entreprises et les administrations.(la Tribune)

Collectif (*)

 

Un immense effort collectif est donc nécessaire pour mesurer ces impacts et disposer dans ces domaines de données fiables, intelligibles, comparables. Face aux défis environnementaux et sociaux, face à l’urgence climatique, la data est un levier majeur et indispensable pour mesurer et modéliser l’impact extra-financier d’un projet et ainsi prendre des décisions éclairées quant à sa mise en œuvre. Une approche industrielle fondée sur la donnée est un ingrédient essentiel non seulement à la mise à l’échelle du développement durable, mais également à l’efficacité et à la crédibilité de nos actions.

Nous devons tendre vers une estimation systématique et en amont, de l’impact extra financier d’un projet, y compris numérique. Une approche méthodique et la plus scientifique possible est nécessaire, appliquant si besoin divers scénarios. Tout au long du cycle de vie du projet, les calculs devraient être réactualisés. La data est ainsi la pierre angulaire d’une généralisation de prises de décisions réfléchies et éclairées.

Le budget vert, lancé en décembre 2017 sous l’égide de l’OCDE, répartit les choix budgétaires et fiscaux en trois catégories : les dépenses « vertes », « neutres » et « défavorables » en fonction de six objectifs environnementaux. Or, cette cotation repose sur la destination des dépenses et sur leurs effets supposés, pas sur une mesure complète et précise de l’impact de chaque projet. La donnée portant un potentiel inédit, toutes les parties prenantes ont intérêt à s’en saisir afin d’approfondir ce dispositif.

Pour être ambitieux mais pragmatique, il s’agirait, dans un premier temps, d’appliquer la méthode de l’empreinte carbone, qui prend en compte la globalité des émissions GES directes ou indirectes et d’élargir par la suite à des mesures d’alignement avec les accords de Paris. À terme, les autres impacts environnementaux et si possible sociaux pourront être intégrés au même titre que le coût de l’inaction, c’est-à-dire l’impact évité par la mise en œuvre du projet.

Notre recommandation s’inscrit dans le contexte d’une révolution européenne et mondiale dans le domaine du reporting RSE.  Nous sommes à la veille du dévoilement par l’EFRAG (European financial reporting advisory group) des critères standardisés dans le cadre de la nouvelle directive européenne CSRD (Corporate sustainability reporting). En parallèle, l’International Sustainability Standards Board (ISSB), qui développe les standards de durabilité facilitant le reporting extra-financier, travaille pour bâtir les indicateurs IFRS Sustainability Disclosure. La coopération de ces deux acteurs pour faciliter la mesure et la lecture de l’impact des grandes entreprises arrive à point nommé. C’est une opportunité historique pour les entreprises qui pourront précisément mesurer a priori et a posteriori l’impact de leurs projets à visée sociétale.

Dans ce domaine qui impose à tous les acteurs de nouveaux modes de pensée, de nouvelles méthodes de travail et de nouvelles normes, l’État peut jouer un rôle moteur, de chef de file pour impulser une dynamique nationale et européenne. Les estimations a posteriori, mais surtout a priori par les pouvoirs publics de l’impact réel de leurs mesures à but social ou environnemental pourront servir d’exemple et participer à la constitution d’une base de données pour que les entreprises, à leur tour, prennent ce chemin de réflexion.

Le sujet de la donnée n’est pas une question d’intendance, mais un sujet central pour l’ensemble des acteurs dont les décisions pèsent sur l’avenir de notre planète et de nos sociétés.

______

(*) Par Rim Tehraoui, chief data officer du groupe BNP Paribas, Côme Perpere, directeur du développement durable de Microsoft France et Romain Mouton, président du Cercle de Giverny.

Tribune cosignée par les membres du groupe de travail « Le rôle de la data dans l’industrialisation du développement durable » du Cercle de Giverny : Anne-Laure Calvez, directrice de l’engagement de l’entreprise d’Orano ; Carole Davies-Filleur, directrice exécutive sustainable technology France & Benelux d’Accenture ; Davide Forcella, directeur du JuST Institute ; Sylvain Guyoton, chief rating officer d’EcoVadis ; Philippe Kunter, directeur du développement durable et de la RSE de Bpifrance ; Fanny Picard, présidente d’Alter Equity ; Céline Soubranne, directrice du développement durable du groupe Axa ; Aurélie Stewart, directrice RSE d’Elior ; Lou Welgryn, présidente de Data for good.

Les incertitudes de l’évaluation économique

Les incertitudes de l’évaluation économique

 

Lorsqu’il s’agit de projets particulièrement innovants, une part irréductible d’inconnu échappe à l’évaluation du rapport coûts (ou risques)/bénéfices explique, dans sa chronique, le professeur en sciences de gestion Armand Hatchuel.

 

Chronique

 

Qu’il s’agisse des investissements d’une entreprise ou d’une politique publique, il est routinier de procéder à une évaluation du rapport coûts (ou risques)/bénéfices. Avec la pandémie de Covid-19, cette notion a été évoquée en faveur de la vaccination. Le plus souvent, ces estimations se traduisent par des calculs de probabilités éclairants.

Mais lorsqu’il s’agit de projets particulièrement innovants, une part irréductible d’inconnu échappe à ces calculs. Cela peut conduire à des déboires inattendus ou à sous-estimer la valeur potentielle de certaines innovations.

Faut-il s’y résigner ? Une recherche récente suggère que l’on peut tenir compte de la valeur de l’inconnu en adoptant une démarche exploratrice et une conception continuée des projets innovants (Agathe Gilain, « Economic evaluation of designing in the unknown », thèse Mines ParisTech-Université PSL, 2021).

 

Qu’il s’agisse des jeux de hasard ou des aléas de la vie, on a pensé depuis longtemps que les décisions devaient soupeser les « chances » et les conséquences des différentes éventualités. Cette approche a connu son apogée après la seconde guerre mondiale, avec la théorie probabiliste de la décision, qui a influencé autant les choix industriels que les décisions médicales face au risque (Raoul Charreton et Jean-Marie Bourdaire, La Décision économique, coll. « Que sais-je », PUF, 1985).

Cette théorie suppose cependant que les actions et les événements, seraient-ils de faible probabilité, sont tous connus à l’avance. Aucune surprise, aucune découverte n’est envisageable dans les calculs. Ces hypothèses sont acceptables dans un environnement stable ou incertain, mais lorsque les techniques et les comportements évoluent rapidement, il devient rationnel de considérer que l’inconnu n’est plus négligeable et que sa gestion devient un axe majeur du projet.

Certes, on doit toujours s’assurer que les risques et les bénéfices connus sont bien cernés, mais il faut aussi garantir que l’effort de conception technique et sociale va continuer à explorer ceux que l’on ne connaît pas encore.

L’évaluation du niveau scolaire contestée !

L’évaluation du niveau scolaire contestée !

 

L’opération d’évaluation du niveau scolaire est encore contestée par les syndicats d’enseignants. Il est clair que la crise sanitaire a pu avoir des effets qui pèseront de façon négative sur les résultats mais plus fondamentalement les enseignants n’apprécient pas le principe d’évaluation. Cela d’autant plus que les classements mondiaux montrent une détérioration du système d’enseignement français. Majoritaire dans le second degré, le Snes craint aussi des «évaluations standardisées généralisées», qui reviendraient à évaluer «aussi les enseignants». Observons d’ailleurs la même réticence dans la plupart des services publics. Les services de l’État n’aiment pas être évalués.

 

.Les évaluations nationales commencent donc ce lundi 14 septembre en CP, CE1 et sixième. En seconde, des tests de positionnements sont prévus. Ces dispositifs existent depuis 2018, mais ils prennent une nouvelle dimension, à l’aune de la crise du Covid.

Les résultats seront-ils plus inquiétants qu’en 2019? L’an dernier, plus de 27% des élèves de CE1 n’arrivaient pas à lire plus de 30 mots dans une liste donnée. Et seuls 24% et 10% d’entre eux réussissaient respectivement l’ensemble des additions et des soustractions données. Avec des écarts selon les milieux sociaux. Dans l’éducation prioritaire, 62% des élèves lisaient «de manière satisfaisante», contre 72% hors éducation prioritaire. Un constat inquiétant quand on sait que la lecture assoit l’ensemble des apprentissages. En 2019, toujours, 17% des élèves arrivaient au collège sans maîtriser correctement le français. Une proportion qui grimpait à 37% dans l’éducation prioritaire renforcée. En sixième, justement, le ministre a prévu cette année une évaluation «musclée» qui permettra notamment de mesurer la «fluidité en lecture».

« Gilets jaunes »: le gouvernement pour l’évaluation quand ça l’arrange

« Gilets jaunes »: le gouvernement pour l’évaluation quand ça l’arrange

 

Pour deux mesures symboliques au cœur de la colère des gilets jaunes le gouvernement argumente en proposant l’évaluation aussi bien pour l’impôt sur la fortune que pour la limitation de vitesse à 80 km. Pourquoi pas,  la méthodologie semble bonne mais elle est valable pour l’ensemble de la politique. Par exemple pour les 40 milliards accordés cette année au titre du crédit impôt compétitivité emploi dont personne n’est incapacité de dire qu’elle a été exactement son influence précisément sur la compétitivité et sur l’emploi. Même le conseil d’analyse économique aujourd’hui commence à douter de l’efficacité d’une mesure générale qui ne tient pas compte des spécificités des branches et des entreprises, ni du caractère de concurrence internationale de l’activité (la Poste en a bénéficié !).Lors d’un échange marathon de plus de 6h30 mardi avec quelque 650 maires normands dans l’Eure, Emmanuel Macron a semblé ouvrir la voie, sous conditions, à de possibles aménagements à la limitation de la vitesse à 80 km/h sur les routes secondaires. Défendue par le Premier ministre Edouard Philippe, cette mesure fortement contestée, parfois même par des membres du gouvernement dont l’ex-ministre de l’Intérieur Gérard Collomb, est entrée en vigueur le 1er juillet 2018 et doit faire l’objet d’un premier bilan en 2020. “Il y a des propositions qui ont été faites par le gouvernement, il y a une bronca, est-ce qu’il faut tout arrêter ? Franchement non”, a dit Emmanuel Macron. “Est-ce qu’on peut faire quelque chose qui soit mieux accepté et plus intelligent? Sans doute oui». SUR la question de l’ISF et de sa transformation contestée en impôt sur la fortune immobilière (IFI) – promesse de campagne d’Emmanuel Macron -, le chef de l’Etat a dit “qu’il y avait une bonne règle démocratique, c’était : quand on a été élu sur un programme appliquer le programme sur lequel on a été élu”.

“Ça me semble être de bonne hygiène démocratique”, a dit Benjamin Griveaux, rappelant que la loi de Finances votée en décembre 2017 “comprend un élément d’évaluation réalisée par des parlementaires de tous bords et des experts”. Ce comité doit remettre un premier rapport d’évaluation à l’automne. A la question de savoir si l’exécutif pourrait rétablir l’ISF si une majorité de Français le réclamaient, Benjamin Griveaux a refusé “de présager à la mi-janvier des résultats du grand débat national” qui seront rendus avant la fin mars.“Attendons les résultats de ces débats, je suis certain que la question sera abordée (…) mais il est important de rappeler qu’il y a une légitimité dans ce pays qui est liée à la démocratie représentative, qu’il y a eu des élections, que rien n’a été caché dans le projet politique du président”, a-t-il dit. “Qu’il faille enrichir la démocratie représentative par ce travail de débat, de co-construction, pendant l’exercice d’un quinquennat (….) bien sûr mais ça ne peut pas être détricoté en permanence ce que vous avez fait moins de 12 mois avant sans même avoir pu l’évaluer”. Encore une fois le concept  d’évaluation à la fois scientifique et démocratique ne saurait concerner seulement deux mesures mais l’ensemble d’une politique qui jusque-là n’a pas démontré son efficacité ni sur le plan de la croissance, ni sur le plan de l’emploi, ni sur le plan le plan du le rétablissement des équilibres financiers.




L'actu écologique |
bessay |
Mr. Sandro's Blog |
Unblog.fr | Annuaire | Signaler un abus | astucesquotidiennes
| MIEUX-ETRE
| louis crusol