Archive pour le Tag 'l’évaluation'

Docimologie: l’évaluation en question

Docimologie: l’évaluation en question

Science des examens et des concours, la docimologie, de « dokimè » (épreuve) et « logos » (science) trouve son origine dans les travaux sur la validité des systèmes de notation du psychologue français Henri Piéron. C’est en 1922 qu’il propose le concept et lance des recherches autour des résultats du certificat d’études primaires. Celles-ci seront popularisées par son ouvrage Examens et docimologie publié en 1963, suivi en 1971 par le Précis de docimologie de Gilbert Landsheere. Ces travaux fondateurs évoquent, de manière originale, le comportement « des examinés et des examinateurs » afin de nous faire prendre conscience des biais et des incertitudes qui pèsent sur les notations et les évaluations. La préoccupation est pourtant loin d’être nouvelle. L’invention même de la note est le fruit d’une longue histoire. Alors que les États-Unis se dirigent dès 1910 vers l’évaluation via les QCM, en France on préfère conserver l’évaluation classique des examens avec des réponses rédigées.

par Nadir Altinok
Maître de conférences, IUT de Metz, UMR BETA, Université de Lorraine

Claude Diebolt
Directeur de Recherche au CNRS, UMR BETA, Université de Strasbourg dans The Conversation

Comment fait-on pour juger une copie d’examen ? Qu’en est-il de la pertinence des notes en cas de répétition de l’examen ou de changement d’examinateurs ? Répondre à ces questions renvoie précisément aux travaux fondateurs de la docimologie. Ils montrent, à partir d’une analyse de la variance, que la part de l’explication d’une note serait liée, à hauteur de 40 %, aux compétences de l’élève. En corollaire, 60 % résulteraient de l’identité de l’examinateur.

Si la méthode utilisée par ces travaux précurseurs est critiquable, ils soulignent néanmoins toute l’ambiguïté entourant la justification d’une note. Henri Piéron ira même jusqu’à dire que « pour prédire la note d’un candidat, il vaut mieux connaître son examinateur que lui-même ! »

Quant aux psychologues Laugier et Weinberg, ils tenteront de déterminer le nombre de corrections nécessaires pour aboutir à une note qui soit « juste ». Ce faisant, mobilisant la formule de Spearman-Brown, ils aboutiront au constat, qu’en philosophie par exemple, il faudrait 127 correcteurs pour aboutir à une note équitable.

Cette polémique sur la difficile notation des copies se retrouve régulièrement en première ligne lors des corrections du baccalauréat. Une recherche de 2008 ira même jusqu’à évoquer une sorte de loterie des notes au bac.

En fait, au-delà des polémiques, la docimologie soulève une question majeure. Les notes d’une classe doivent-elles, comme il est très souvent le cas, correspondre à une distribution de Gauss, c’est-à-dire avec quelques élèves « faibles », quelques élèves « forts » et la grande majorité des élèves dans la « moyenne », à l’image de la tyrannie de la Loi Normale qui a régné au Japon entre 1955 et 2000 ?

Un dilemme de taille renvoie en effet, quasi systématiquement, à la moyenne des notes qui induit inévitablement une forme de hasard. Une moyenne trop élevée pourrait signifier une mauvaise appréciation du niveau des élèves, tandis que l’inverse pourrait suggérer des critères de notation trop stricts. Mais, si la majorité des élèves ont une note entre 8 et 12, à quoi bon utiliser une échelle de notation de 0 à 20 ?

Au-delà des moyennes, le bon sens impose de prendre en compte, avec plus d’attention, l’écart-type, c’est-à-dire l’étendue des notes, de la plus basse à la plus haute. Ce faisant, il est aisé d’imaginer qu’une matière d’enseignement pourrait avoir une influence déterminante sur la moyenne générale dès lors que l’écart-type des notes serait plus élevé que celui des autres matières enseignées.

En définitive, quelle est donc la finalité d’une note ? S’agit-il d’apprécier le niveau de compétence et les savoirs des élèves à un instant T, ou d’employer la notation tel un outil afin de classer, si ce n’est de filtrer les élèves, dans l’idée d’aboutir à une allocation optimale des talents dans la société ?

Niveau des élèves français : une question méthodologique !

Niveau des élèves français : une question méthodologique de l’évaluation !

Comment le niveau des élèves évolue-t-il ? Progresse-t-il ? Baisse-t-il ? Ces questions préoccupent vivement parents, enseignants et politiques qui scrutent avec attention les informations que les enquêtes internationales leur délivrent régulièrement sur les performances des élèves.

Un article intéressant mais qui ne saurait expliquer le très bas niveau des élèves français par des questions méthodologiques concernant l’évaluation. Une explication un peu courte pour expliquer que le niveau français se situe dans le fond des classements internationaux NDLR

L’une des évaluations les plus médiatisées est PISA (Programme for International Student Assessment), qui teste les compétences des élèves de 15 ans en lecture, sciences et mathématiques dans plus de 80 pays. Développée par l’International Association for the Evaluation of Educational Achievement (IEA), l’enquête PIRLS (Progress for International Reading Literacy Study) se centre de son côté sur un public plus jeune, mesurant les compétences en lecture et compréhension en quatrième année de scolarité obligatoire.

Ces études peuvent faire l’objet d’interprétations biaisées ou simplificatrices. Elles sont surtout, trop souvent, réduites à de simples classements bien qu’elles offrent un panorama beaucoup plus riche et complexe des évolutions éducatives.

Alors que paraissent ce 16 mai 2023 les résultats de la dernière enquête PIRLS (PIRLS 2021), revenons sur les principes qui gouvernent ces enquêtes pour mieux en comprendre les enjeux.

Comment se déroulent les tests avec les élèves ?
L’objectif de PIRLS est de mesurer, en fin de quatrième année de scolarité obligatoire, en classe de CM1 donc pour la France, la capacité des écoliers à rechercher de l’information pertinente dans un texte, à le comprendre, ceci afin d’effectuer des inférences (c’est-à-dire des déductions, en fonction de leurs connaissances antérieures) sur la thématique abordée. Contrairement à certaines évaluations nationales, PIRLS ne concerne en rien la maîtrise de l’orthographe et des règles de grammaire. L’enquête se concentre sur la capacité des élèves à effectuer des raisonnements structurés.

Comme toutes les enquêtes internationales, PIRLS est effectuée par le biais de « cahiers tournants » (en anglais des « booklets »). En termes très concrets, la totalité des questions (qu’on appelle des « items ») n’est pas posée à l’ensemble des élèves : seuls deux exercices, parmi 18, sont soumis à évaluation.

En somme, sur un total de 288 items, un élève n’est interrogé que sur environ 32 items, soit environ 11 % de ceux-ci. Ce faisant, en mobilisant une méthode spécifique (appelée « théorie de réponse à l’item »), il devient statistiquement possible de prédire la performance de chaque élève pour l’ensemble des questions. Ainsi, l’on nommera « valeur plausible », le score de chaque élève qui, en vérité, demeure inconnu !

À lire aussi : Aider à comprendre les histoires, ça s’apprend aussi !

Le « P » de PIRLS signifiant « Progress », l’International Association for the Evaluation of Educational Achievement (IEA) a rapidement compris que, par-delà tout classement de pays, c’est l’évolution de la performance des élèves, entre 2001 et 2021, qui était statistiquement significative.

Bien plus que le classement, c’est la distance relative de la France vis-à-vis des autres pays qui importe. Dans cette perspective, la comparaison de la France avec la Finlande s’avère particulièrement instructive. La France – classée en milieu de tableau – obtient un score d’environ 35 points inférieurs à ceux du pays scandinave en 2021. Cet écart de points pèse davantage dans la balance que le classement à proprement parler.

Comment comprendre le classement d’un pays ?
Les scores publiés sont avant tout des projections statistiques de la performance d’un pays. Dans le cas de PIRLS, l’erreur type est d’environ 3 points ce qui veut dire que les scores d’un pays peuvent varier de 3 points. En clair, si l’on désire comparer deux pays, une différence de 6 points n’aura guère de sens (puisqu’elle équivaut à l’addition des erreurs types des deux pays).

[Près de 80 000 lecteurs font confiance à la newsletter de The Conversation pour mieux comprendre les grands enjeux du monde. Abonnez-vous aujourd’hui]

À titre d’exemple, un écart de 10 points n’est pas toujours significatif statistiquement. Or, celui-ci peut aisément se transformer en 5 voire 6 places de perdues dans le classement international. C’est le cas dans l’enquête PIRLS 2021, où seulement 10 points séparent la France et l’Allemagne. L’écart est de l’ordre de 0,3 point quand on le rapporte à une échelle de notes de 1 à 20, ce qui est faible statistiquement. Or, l’Allemagne est classée au 26e rang, la France, au 32e. Au contraire, la comparaison avec la Finlande représente une différence d’environ 1 point sur notre échelle de notes française, ce qui est clairement plus significatif.

En supposant qu’une année scolaire en primaire apporte 35 points, en tendance, les résultats montrent que la Finlande parvient à faire progresser ses élèves d’environ 1 année de plus que la France. Ce type de mise en perspective est définitivement plus parlant qu’une simple place dans un classement.

Les seuils de performance sont une information particulièrement précieuse dans la lecture de PIRLS. À l’image de ce qui se fait avec le socle commun de compétences développé en France, PIRLS distingue un seuil « minimum » (relatif à la limite au-dessous de laquelle un élève ne peut pas correctement lire et comprendre un texte) de trois autres seuils appelés respectivement « intermédiaire », « élevé » et « avancé ». À titre de comparaison, notons ici que seulement 5 % des élèves français atteignent le seuil « avancé » contre 14 % pour les élèves polonais.

Le recours à l’analyse de l’évolution des seuils de performance peut dès lors s’avérer fort utile. N’oublions jamais qu’une moyenne peut, par définition, cacher des inégalités fortes : par exemple, l’écart entre les seuils extrêmes est plus élevé pour la France (89) que pour la Finlande (82), indiquant un fort niveau d’inégalités. Cet écart a même augmenté de 1 % en France entre 2001 et 2021.

Au-delà des scores, que nous apprennent les enquêtes internationales ?
Est-ce que copier la politique éducative des pays avec de meilleures performances serait une stratégie pertinente afin d’améliorer les scores de la France ? Chaque système éducatif ayant sa propre trajectoire, transposer aveuglement le modèle de pays dont les scores sont élevés n’est pas nécessairement gage de succès. En effet, les récentes expérimentations soulignent l’absence de consensus sur les méthodes les plus efficaces. Quant aux recherches en économie de l’éducation, elles sont relativement pauvres en résultats transposables.

Peut-on faire confiance à l’enquête PIRLS ? À l’image de PISA, elle a des forces et des faiblesses. Une contrainte de taille renvoie, comme évoqué précédemment, à la fâcheuse tendance de vouloir la réduire à son classement. Plusieurs travaux ont, par ailleurs, mis en évidence que certains pays ont volontairement focalisé leurs programmes scolaires sur les compétences évaluées dans les tests internationaux. Notons ici qu’il serait toutefois trompeur de se baser uniquement sur le classement PIRLS pour mesurer l’évolution de la performance française : tous les pays ne participent pas systématiquement à chaque vague d’enquête.

À lire aussi : Maths, lecture : le niveau des élèves baisse-t-il vraiment ?

Mais PIRLS n’est pas qu’un test de performance. Des questionnaires contextuels sont distribués aux parents, aux élèves, aux enseignants et aux directeurs d’écoles. Ce sont donc des milliers d’informations qui sont disponibles et comparables entre les pays, comme la taille des classes, les pratiques pédagogiques, les ressources socio-économiques des élèves…

En fait, la principale limite de PIRLS renvoie surtout à son incapacité de mesurer les « progrès » des élèves : les enquêtes internationales (PISA, TIMSS et PIRLS) n’évaluent pas les mêmes élèves de manière répétée. En guise d’optimisme, nous notons avec intérêt que l’IEA a, tout récemment, décidé de prendre l’initiative de tester les élèves à 12 mois d’intervalle (« PIRLS Longitudinal » et « TIMSS Longitudinal »), précisément dans le but de mesurer leurs possibles progrès… sans la participation officielle de la France toutefois !

Développement durable : L’évaluation indispensable pour éviter la démagogie et l’incohérence

 Développement durable : L’évaluation indispensable pour éviter la démagogie et l’incohérence

Le monde économique est aujourd’hui appelé à placer les critères environnementaux et sociaux au cœur de ses décisions. Une telle transformation impose, en parallèle des mesures d’efficacité et de performance propres à chaque activité, de connaître les impacts environnementaux et sociaux des choix effectués par les entreprises et les administrations.(la Tribune)

Collectif (*)

 

Un immense effort collectif est donc nécessaire pour mesurer ces impacts et disposer dans ces domaines de données fiables, intelligibles, comparables. Face aux défis environnementaux et sociaux, face à l’urgence climatique, la data est un levier majeur et indispensable pour mesurer et modéliser l’impact extra-financier d’un projet et ainsi prendre des décisions éclairées quant à sa mise en œuvre. Une approche industrielle fondée sur la donnée est un ingrédient essentiel non seulement à la mise à l’échelle du développement durable, mais également à l’efficacité et à la crédibilité de nos actions.

Nous devons tendre vers une estimation systématique et en amont, de l’impact extra financier d’un projet, y compris numérique. Une approche méthodique et la plus scientifique possible est nécessaire, appliquant si besoin divers scénarios. Tout au long du cycle de vie du projet, les calculs devraient être réactualisés. La data est ainsi la pierre angulaire d’une généralisation de prises de décisions réfléchies et éclairées.

Le budget vert, lancé en décembre 2017 sous l’égide de l’OCDE, répartit les choix budgétaires et fiscaux en trois catégories : les dépenses « vertes », « neutres » et « défavorables » en fonction de six objectifs environnementaux. Or, cette cotation repose sur la destination des dépenses et sur leurs effets supposés, pas sur une mesure complète et précise de l’impact de chaque projet. La donnée portant un potentiel inédit, toutes les parties prenantes ont intérêt à s’en saisir afin d’approfondir ce dispositif.

Pour être ambitieux mais pragmatique, il s’agirait, dans un premier temps, d’appliquer la méthode de l’empreinte carbone, qui prend en compte la globalité des émissions GES directes ou indirectes et d’élargir par la suite à des mesures d’alignement avec les accords de Paris. À terme, les autres impacts environnementaux et si possible sociaux pourront être intégrés au même titre que le coût de l’inaction, c’est-à-dire l’impact évité par la mise en œuvre du projet.

Notre recommandation s’inscrit dans le contexte d’une révolution européenne et mondiale dans le domaine du reporting RSE.  Nous sommes à la veille du dévoilement par l’EFRAG (European financial reporting advisory group) des critères standardisés dans le cadre de la nouvelle directive européenne CSRD (Corporate sustainability reporting). En parallèle, l’International Sustainability Standards Board (ISSB), qui développe les standards de durabilité facilitant le reporting extra-financier, travaille pour bâtir les indicateurs IFRS Sustainability Disclosure. La coopération de ces deux acteurs pour faciliter la mesure et la lecture de l’impact des grandes entreprises arrive à point nommé. C’est une opportunité historique pour les entreprises qui pourront précisément mesurer a priori et a posteriori l’impact de leurs projets à visée sociétale.

Dans ce domaine qui impose à tous les acteurs de nouveaux modes de pensée, de nouvelles méthodes de travail et de nouvelles normes, l’État peut jouer un rôle moteur, de chef de file pour impulser une dynamique nationale et européenne. Les estimations a posteriori, mais surtout a priori par les pouvoirs publics de l’impact réel de leurs mesures à but social ou environnemental pourront servir d’exemple et participer à la constitution d’une base de données pour que les entreprises, à leur tour, prennent ce chemin de réflexion.

Le sujet de la donnée n’est pas une question d’intendance, mais un sujet central pour l’ensemble des acteurs dont les décisions pèsent sur l’avenir de notre planète et de nos sociétés.

______

(*) Par Rim Tehraoui, chief data officer du groupe BNP Paribas, Côme Perpere, directeur du développement durable de Microsoft France et Romain Mouton, président du Cercle de Giverny.

Tribune cosignée par les membres du groupe de travail « Le rôle de la data dans l’industrialisation du développement durable » du Cercle de Giverny : Anne-Laure Calvez, directrice de l’engagement de l’entreprise d’Orano ; Carole Davies-Filleur, directrice exécutive sustainable technology France & Benelux d’Accenture ; Davide Forcella, directeur du JuST Institute ; Sylvain Guyoton, chief rating officer d’EcoVadis ; Philippe Kunter, directeur du développement durable et de la RSE de Bpifrance ; Fanny Picard, présidente d’Alter Equity ; Céline Soubranne, directrice du développement durable du groupe Axa ; Aurélie Stewart, directrice RSE d’Elior ; Lou Welgryn, présidente de Data for good.

Les incertitudes de l’évaluation économique

Les incertitudes de l’évaluation économique

 

Lorsqu’il s’agit de projets particulièrement innovants, une part irréductible d’inconnu échappe à l’évaluation du rapport coûts (ou risques)/bénéfices explique, dans sa chronique, le professeur en sciences de gestion Armand Hatchuel.

 

Chronique

 

Qu’il s’agisse des investissements d’une entreprise ou d’une politique publique, il est routinier de procéder à une évaluation du rapport coûts (ou risques)/bénéfices. Avec la pandémie de Covid-19, cette notion a été évoquée en faveur de la vaccination. Le plus souvent, ces estimations se traduisent par des calculs de probabilités éclairants.

Mais lorsqu’il s’agit de projets particulièrement innovants, une part irréductible d’inconnu échappe à ces calculs. Cela peut conduire à des déboires inattendus ou à sous-estimer la valeur potentielle de certaines innovations.

Faut-il s’y résigner ? Une recherche récente suggère que l’on peut tenir compte de la valeur de l’inconnu en adoptant une démarche exploratrice et une conception continuée des projets innovants (Agathe Gilain, « Economic evaluation of designing in the unknown », thèse Mines ParisTech-Université PSL, 2021).

 

Qu’il s’agisse des jeux de hasard ou des aléas de la vie, on a pensé depuis longtemps que les décisions devaient soupeser les « chances » et les conséquences des différentes éventualités. Cette approche a connu son apogée après la seconde guerre mondiale, avec la théorie probabiliste de la décision, qui a influencé autant les choix industriels que les décisions médicales face au risque (Raoul Charreton et Jean-Marie Bourdaire, La Décision économique, coll. « Que sais-je », PUF, 1985).

Cette théorie suppose cependant que les actions et les événements, seraient-ils de faible probabilité, sont tous connus à l’avance. Aucune surprise, aucune découverte n’est envisageable dans les calculs. Ces hypothèses sont acceptables dans un environnement stable ou incertain, mais lorsque les techniques et les comportements évoluent rapidement, il devient rationnel de considérer que l’inconnu n’est plus négligeable et que sa gestion devient un axe majeur du projet.

Certes, on doit toujours s’assurer que les risques et les bénéfices connus sont bien cernés, mais il faut aussi garantir que l’effort de conception technique et sociale va continuer à explorer ceux que l’on ne connaît pas encore.

L’évaluation du niveau scolaire contestée !

L’évaluation du niveau scolaire contestée !

 

L’opération d’évaluation du niveau scolaire est encore contestée par les syndicats d’enseignants. Il est clair que la crise sanitaire a pu avoir des effets qui pèseront de façon négative sur les résultats mais plus fondamentalement les enseignants n’apprécient pas le principe d’évaluation. Cela d’autant plus que les classements mondiaux montrent une détérioration du système d’enseignement français. Majoritaire dans le second degré, le Snes craint aussi des «évaluations standardisées généralisées», qui reviendraient à évaluer «aussi les enseignants». Observons d’ailleurs la même réticence dans la plupart des services publics. Les services de l’État n’aiment pas être évalués.

 

.Les évaluations nationales commencent donc ce lundi 14 septembre en CP, CE1 et sixième. En seconde, des tests de positionnements sont prévus. Ces dispositifs existent depuis 2018, mais ils prennent une nouvelle dimension, à l’aune de la crise du Covid.

Les résultats seront-ils plus inquiétants qu’en 2019? L’an dernier, plus de 27% des élèves de CE1 n’arrivaient pas à lire plus de 30 mots dans une liste donnée. Et seuls 24% et 10% d’entre eux réussissaient respectivement l’ensemble des additions et des soustractions données. Avec des écarts selon les milieux sociaux. Dans l’éducation prioritaire, 62% des élèves lisaient «de manière satisfaisante», contre 72% hors éducation prioritaire. Un constat inquiétant quand on sait que la lecture assoit l’ensemble des apprentissages. En 2019, toujours, 17% des élèves arrivaient au collège sans maîtriser correctement le français. Une proportion qui grimpait à 37% dans l’éducation prioritaire renforcée. En sixième, justement, le ministre a prévu cette année une évaluation «musclée» qui permettra notamment de mesurer la «fluidité en lecture».

« Gilets jaunes »: le gouvernement pour l’évaluation quand ça l’arrange

« Gilets jaunes »: le gouvernement pour l’évaluation quand ça l’arrange

 

Pour deux mesures symboliques au cœur de la colère des gilets jaunes le gouvernement argumente en proposant l’évaluation aussi bien pour l’impôt sur la fortune que pour la limitation de vitesse à 80 km. Pourquoi pas,  la méthodologie semble bonne mais elle est valable pour l’ensemble de la politique. Par exemple pour les 40 milliards accordés cette année au titre du crédit impôt compétitivité emploi dont personne n’est incapacité de dire qu’elle a été exactement son influence précisément sur la compétitivité et sur l’emploi. Même le conseil d’analyse économique aujourd’hui commence à douter de l’efficacité d’une mesure générale qui ne tient pas compte des spécificités des branches et des entreprises, ni du caractère de concurrence internationale de l’activité (la Poste en a bénéficié !).Lors d’un échange marathon de plus de 6h30 mardi avec quelque 650 maires normands dans l’Eure, Emmanuel Macron a semblé ouvrir la voie, sous conditions, à de possibles aménagements à la limitation de la vitesse à 80 km/h sur les routes secondaires. Défendue par le Premier ministre Edouard Philippe, cette mesure fortement contestée, parfois même par des membres du gouvernement dont l’ex-ministre de l’Intérieur Gérard Collomb, est entrée en vigueur le 1er juillet 2018 et doit faire l’objet d’un premier bilan en 2020. “Il y a des propositions qui ont été faites par le gouvernement, il y a une bronca, est-ce qu’il faut tout arrêter ? Franchement non”, a dit Emmanuel Macron. “Est-ce qu’on peut faire quelque chose qui soit mieux accepté et plus intelligent? Sans doute oui». SUR la question de l’ISF et de sa transformation contestée en impôt sur la fortune immobilière (IFI) – promesse de campagne d’Emmanuel Macron -, le chef de l’Etat a dit “qu’il y avait une bonne règle démocratique, c’était : quand on a été élu sur un programme appliquer le programme sur lequel on a été élu”.

“Ça me semble être de bonne hygiène démocratique”, a dit Benjamin Griveaux, rappelant que la loi de Finances votée en décembre 2017 “comprend un élément d’évaluation réalisée par des parlementaires de tous bords et des experts”. Ce comité doit remettre un premier rapport d’évaluation à l’automne. A la question de savoir si l’exécutif pourrait rétablir l’ISF si une majorité de Français le réclamaient, Benjamin Griveaux a refusé “de présager à la mi-janvier des résultats du grand débat national” qui seront rendus avant la fin mars.“Attendons les résultats de ces débats, je suis certain que la question sera abordée (…) mais il est important de rappeler qu’il y a une légitimité dans ce pays qui est liée à la démocratie représentative, qu’il y a eu des élections, que rien n’a été caché dans le projet politique du président”, a-t-il dit. “Qu’il faille enrichir la démocratie représentative par ce travail de débat, de co-construction, pendant l’exercice d’un quinquennat (….) bien sûr mais ça ne peut pas être détricoté en permanence ce que vous avez fait moins de 12 mois avant sans même avoir pu l’évaluer”. Encore une fois le concept  d’évaluation à la fois scientifique et démocratique ne saurait concerner seulement deux mesures mais l’ensemble d’une politique qui jusque-là n’a pas démontré son efficacité ni sur le plan de la croissance, ni sur le plan de l’emploi, ni sur le plan le plan du le rétablissement des équilibres financiers.




L'actu écologique |
bessay |
Mr. Sandro's Blog |
Unblog.fr | Annuaire | Signaler un abus | astucesquotidiennes
| MIEUX-ETRE
| louis crusol