La Lettre de lIMSEPP n° 19 - 24 octobre 2013 Méthodologie : - TopicsExpress



          

La Lettre de lIMSEPP n° 19 - 24 octobre 2013 Méthodologie : Rôle et limites de la statistique dans l’évaluation des politiques publiques. Introduction Depuis une petite décennie, l’évaluation des politiques publiques fait l’objet de nombreux débats, de quelques polémiques et suscite même quelques phantasmes. Les politiques publiques sont le fruit de décisions, concertées ou non, prises et mises en œuvre par des autorités institutionnelles allant de la plus petite commune jusqu’aux plus hauts sommets de l’Etat. Elles visent toutes à améliorer le bien-être du citoyen, en dotant son environnement d’équipements structurants ou en accompagnant son développement d’allocations financières, dont l’attribution est généralement soumise à des critères plus ou moins sévères de conditionnalité. Dès son arrivée aux responsabilités, chaque équipe dirigeante, chaque « gouvernance », chaque majorité, affirme sa volonté et sa capacité à faire plus et mieux que celles qui l’ont précédée. Pourtant, rares sont celles qui se sont effectivement donnés les moyens : 1 - de réaliser un véritable état des lieux au jour de sa prise de pouvoir, d’une part, 2 - d’évaluer la pertinence des politiques réalisées, qu’il s’agisse d’une évaluation « au fil de l’eau » (ex ante) ou d’une évaluation « après service fait » (ex post), d’autre part. Problématique des tests pour l’évaluation d’une politique publique Le problème de l’évaluation des politiques publiques est que si son but peut être clairement établi (les résultats de la politique suivie sont-ils conformes aux objectifs assignés à cette politique ? Si oui, pouvait-on faire encore mieux ? Si non, quel est l’écart par rapport à l’objectif et comment peut-on le réduire ?), il n’existe pas de normes officielles permettant de caractériser une évaluation comme étant bonne ou mauvaise. Les études d’évaluation imposent donc de mesurer de très nombreux paramètres : paramètres sociaux (démographie, sociologie, etc…), paramètres économiques (géographie, emploi, chiffre d’affaires, valeur ajoutée, etc…), voire même, paramètres politiques (rapports de force majorité / opposition). On va ensuite regarder si des dissemblances apparaissent entre des groupes de population tests et les groupes de population témoins, cest-à-dire que l’on va comparer l’évolution de populations « à priori » comparables dont une partie aura « subi » la politique à évaluer et l’autre non. Il faut bien sûr comparer ce qui est comparable : on compare donc les données avant et après l’application de la politique à évaluer, entre groupes de même profil économique, social et culturel. Un grand nombre de données sont donc recueillies à l’occasion de ces études. Toutes ces mesures, quantitatives et qualitatives, font ensuite l’objet d’analyses statistiques afin de comparer l’impact de la politique à évaluer par rapport à celui d’une autre politique, en général, l’ancienne. Que cela soit pour démontrer l’efficacité ou l’inefficacité d’une politique, les analyses statistiques se limitent généralement à regarder si des différences sont statistiquement significatives. La différence entre les études d’évaluation réside donc dans l’interprétation des différences trouvées comme significatives, selon la finalité et le point de vue de leurs auteurs. L’évaluateur fait son possible pour expliquer que ces différences sont ou ne sont pas significatives, alors que ses détracteurs cherchent à démontrer le contraire, ou inversement, tout cela parfois au détriment de la rigueur scientifique. Peut-on conclure à l’efficacité d’une politique publique par rapport à une autre ? Bien évidemment, des différences sont toujours observées et une partie de ces différences observées est due simplement au « hasard », c’est-à-dire à la façon dont ont été constitués les groupes test et témoin. Une première question se pose alors : Toutes les différences ne sont-elles dues qu’au hasard, ou bien certaines d’entre elles peuvent-elle être expliquées par la différence entre les politiques elles-mêmes ? Cette question est d’ordre purement statistique et les réponses que l’on peut apporter reposent sur des tests de comparaisons. La procédure classique consiste à comparer, pour chaque paramètre, les moyennes obtenues dans les groupes témoin et test. On pose alors comme hypothèse de référence (hypothèse dite « nulle ») que les moyennes sont identiques dans les deux groupes, ce qui revient donc à considérer a priori la politique à évaluer comme “présumée efficace” et à rejeter sur les données, la charge de démontrer le contraire ! Une telle approche a ses limites concernant les conclusions qui peuvent en être tirées. Ainsi, un test non significatif permet uniquement de conclure que les données recueillies ne mettent pas en évidence de différences statistiquement significatives. Justifier rigoureusement ses conclusions Il est fréquent de lire dans un dossier que l’absence de différences significatives permet de conclure à l’absence de différences tout court et donc, à l’équivalence entre deux politiques. Le bon outil statistique pour conclure à la supériorité d’une politique par rapport à une autre n’est donc bien évidemment pas le test de comparaison de moyennes, particulièrement favorable au décideur institutionnel qui part du principe qu’il n’existe pas de meilleure politique que la sienne, mais le test d’équivalence qui protège davantage le citoyen en posant l’hypothèse qu’il existe une “présomption d’inefficacité” de la politique à évaluer et c’est alors à l’expérience de démontrer qu’il n’en est rien ! Démontrer l’équivalence impose donc d’être particulièrement exigeant. C’est la responsabilité de l’évaluateur d’effectuer les investigations nécessaires s’il souhaite conclure à l’équivalence. Ce n’est pas une décision anodine. En effet, on voit fréquemment les responsables institutionnels invoquer comme argument le fait que l’équivalence « en substance » est démontrée, pour ne pas effectuer d’études complémentaires. Or on ne peut pas s’y soustraire sur la simple base de tests de comparaisons non significatifs (rappelons qu’un test ne sera pratiquement jamais significatif avec de faibles échantillons). Tout statisticien sait parfaitement qu’absence de significativité ne signifie pas absence d’effet : “absence of evidence is not evidence of absence”. Cette remarque est d’autant plus pertinente lorsque l’on sait que la plupart des études d’évaluation sont réalisées sur de petits groupes de citoyens dans des territoires restreints. Il y a nécessairement une part non négligeable d’incertitude et vouloir la dissimuler serait ridicule : mieux vaut assumer cette incertitude et formuler en termes précis et rigoureux les conclusions que les études permettent de tirer. Apporter de bonnes réponses à de bonnes questions Le test de comparaison de moyennes tel qu’il est généralement mis en œuvre ne présente pas beaucoup d’intérêt car on pourrait systématiquement rejeter l’hypothèse nulle (et donc conclure à une efficacité) sans risque de se tromper. En effet, le fait de changer de politique provoque inévitablement des modifications dans de nombreux paramètres économiques et sociaux, et ce, indépendamment du caractère efficace ou inefficace de ces politiques. Même infimes, ces différences existent et il est donc paradoxal d’en tester l’existence ! La première vraie question qu’il convient de se poser est de savoir si ces différences sont suffisamment importantes pour être associées à un effet de la nouvelle politique : Si des différences sont considérées comme statistiquement significatives (i.e. on rejette l’hypothèse nulle en acceptant l’idée que la différence de politique explique une partie des différences observées), faut-il alors conclure que la nouvelle politique est la bonne ? Ce n’est plus du tout une question d’ordre statistique et seul l’évaluateur est en mesure de juger si les différences qu’il observe peuvent indiquer ou non des signes d’efficacité. En effet, il ne suffit pas par exemple d’observer une baisse significative du nombre de demandeurs d’emploi pour conclure à une reprise de l’activité. D’autres paramètres économiques et sociaux comme, entre autres, l’évolution des mises en chantiers et des créations d’entreprises, doivent également présenter des différences. La difficulté majeure ici est de traduire en termes mathématiques ce que signifie « impact sur l’économie ». En effet, on ne sait pas définir une zone de rejet pour un test qui porte simultanément sur plusieurs dizaines de paramètres. Il est par conséquent totalement illusoire d’imaginer que la statistique puisse être un outil de décision dans ce cadre. La règle de décision ne peut être basée que sur une réelle expertise macroéconomique de long terme mais sûrement pas sur la variation d’un centième de pourcentage d’un indicateur conjoncturel. La statistique ne sert ici que d’outil d’aide à la décision : le statisticien ne fait que lever des drapeaux orange pour des paramètres pour lesquels il soupçonne un effet de la politique à évaluer, il appartient ensuite aux décideurs institutionnels eux-mêmes de décider s’il convient de lever le drapeau rouge quand ils observent une configuration particulière de drapeaux orange levés. Cela nous conduit à la deuxième question que le citoyen est en droit de se poser : Que peut-on espérer mettre en évidence avec une étude donnée ? Quelles sont les chances de détecter l’éventuel effet négatif d’une politique engagée ? Ces questions sont en effet pertinentes pour le citoyen, puisque se contenter d’évaluer la probabilité de se tromper en concluant à tort à l’efficacité d’une politique (donc risquer d’aggraver une situation économique et sociale donnée) n’est pas suffisant. Il faut systématiquement évaluer la probabilité de ne pas détecter une mauvaise politique lorsque la dangerosité de celle-ci est avérée (donc risquer de passer sous silence la dégradation possible des conditions de vie du citoyen). D’un point de vue technique, toute la difficulté est de déterminer dans un premier temps la taille de l’effet qu’il faut pouvoir détecter, puis de calculer la puissance du test mis en œuvre. Choisir et utiliser le bon outil Lorsqu’une différence entre deux politiques s’avère statistiquement significative, les données sont comparées à des données de référence, obtenues lors d’études d’évaluation précédentes sur différentes autres politiques. L’effet détecté est alors considéré comme non significatif si la valeur du paramètre considéré pour la politique visée est compatible avec ces valeurs de référence : la variabilité observée est alors mise sur le compte d’une variabilité naturelle. Le principe même de cette approche, totalement empirique, peut sembler raisonnable, mais c’est son utilisation qui reste discutable. En effet, les données historiques peuvent présenter de grandes disparités et donc surestimer la variabilité naturelle de la politique considérée. La notion même de différence économiquement non significative reste très empirique et ne repose sur aucune définition précise. Il n’est donc plus possible d’associer un risque d’erreur à cette procédure puisqu’il n’y a aucun modèle statistique sous-jacent. Les conclusions basées sur cette approche devraient donc refléter l’aspect empirique de la procédure et ses limites. Il faut enfin remarquer que l’adoption de cette approche confirme l’idée qu’un simple test de comparaison n’est pas l’outil statistique le mieux adapté à ces analyses, puisque l’objectif est bien de détecter des différences économiquement significatives et non des différences statistiquement significatives. Faut-il conclure coûte que coûte ? Des études prétendant démontrer l’efficacité (ou l’inefficacité) de telle ou telle politique publique sont régulièrement publiées, avec parfois une forte ampliation médiatique. Malheureusement, un grand nombre de ces études souffrent de faiblesses méthodologiques qui remettent en question les conclusions avancées. Ainsi, l’une des dernières études en date, dévoilée au début de l’année 2013 et hyper-médiatisée, rapportait les soi-disant effets délétères de la politique régionale sur la cohésion sociale en Martinique au prétexte que le nombre de sapeurs-pompiers volontaires y serait inférieur à la moyenne nationale et le nombre de divorces supérieur à la même moyenne…. Les critiques à l’encontre du contenu scientifique de cette publication ont été nombreuses et solidement étayées. Elles en ont détaillé les faiblesses du protocole, et émis une conclusion sans appel : le dispositif expérimental et les outils statistiques utilisés souffrent de lacunes et faiblesses méthodologiques rédhibitoires, qui ne permettent pas de soutenir les conclusions avancées par les auteurs. La presse n’a, bien entendu, tenu aucun compte de ces critiques ! Proposer une approche qui prétend mettre en évidence de nombreuses différences statistiquement significatives n’est pas critiquable en soi, si elle est rigoureuse ! Mais alors, les choix des seuils de significativité des tests statistiques utilisés doivent faire l’objet de réflexions préalables selon les objectifs poursuivis. Ainsi, l’IMSEPP préconise d’effectuer des tests avec un niveau de 10%, plutôt que les 5% habituels. Il en résulte mécaniquement un test plus puissant. Mais identifier davantage de différences statistiquement significatives ne signifie bien sûr pas qu’elles sont économiquement significatives ! C’est la taille des effets observés, la cohérence entre différents paramètres, entre différents groupes, qui peut éventuellement conduire l’évaluateur à suspecter l’inefficacité d’une politique publique. Cet aspect de l’analyse est trop souvent ignoré alors que c’est clairement le plus important. Le glissement sémantique Si l’évaluateur a souvent tendance à conclure à l’absence d’efficacité (ou à l’efficacité) sans y être autorisé, certaines conclusions font également l’objet de nombreux glissements sémantiques. Comme déjà signalé, des effets statistiquement significatifs deviennent systématiquement des effets économiquement significatifs dans les conclusions. Un autre exemple de glissement sémantique consiste à utiliser des méthodes de statistique descriptive (en les revendiquant comme telles), puis à formuler des conclusions à caractère inférentiel sans justification. Des avis plutôt que des arguments Le principe de l’évaluation des politiques publiques menées en Martinique aurait mérité une large et véritable discussion scientifique entre experts, afin de pouvoir éclairer le citoyen sur ce que la science permet réellement de dire, et ce, au-delà de toute conviction personnelle. Mais le débat de nature scientifique a été confisqué, occulté, et systématiquement replacé sur la scène médiatico-publique pour être converti en affrontement à caractère politicien plutôt qu’en échange d’idées sur la stratégie de développement d’un pays et la traduction à lui donner en termes d’orientation des politiques publiques. Dans un tel débat de société où la science est convoquée, ce sont des arguments scientifiques qu’il convient d’avancer, et non des avis ou des opinions. Conclusion Dans ce débat sur l’évaluation des politiques publiques, un des rôles majeurs des instituts, observatoires et autres agences, est multiple : Communiquer de façon claire et transparente sur ce qu’une étude d’évaluation permet réellement de conclure, en laissant aux incertitudes la place qu’elles méritent. Il faut en effet éduquer le citoyen à la culture de l’incertain : répéter encore et encore qu’une étude, même bien menée, ne permettra pas de conclure de façon définitive sur l’efficacité ou non, dans l’absolu, de telle ou telle politique publique. Il faut expliquer encore et encore, plutôt qu’affirmer, que si l’on est sûr à 99% qu’une politique publique n’a pas été inefficace, ne signifie pas qu’elle ne l’a pas été dans 1% des cas. Et réciproquement. Inciter évaluateurs et chercheurs à ne formuler que les conclusions que l’étude permet réellement de tirer, sans faire preuve d’un excès d’optimisme ou de pessimisme. Ainsi, si une étude permet de conclure à l’efficacité d’une politique publique, il n’est pas question pour autant de conclure définitivement à son inefficacité. Mais si cette étude ne permet pas de conclure à l’efficacité d’une politique publique, il n’est pas non plus question de conclure fermement à sa dangerosité. Le rôle du statisticien dans ce débat est également multiple : Rappeler que nous sommes dans un environnement incertain et que la première fonction du statisticien n’est pas de lever les incertitudes, mais de les évaluer. Rappeler le rôle limité de la statistique : c’est un outil d’aide à la décision, mais pas un outil de décision ! Ce n’est pas la statistique qui permet de conclure si une politique publique est efficace ou non pour le bien-être de la collectivité des citoyens. La statistique est là au service du décideur institutionnel pour les études d’évaluation, et de l’économiste, du sociologue, du chercheur, pour les études d’inférence, etc… Prôner de bonnes pratiques statistiques : la statistique est trop souvent maltraitée et il est indispensable que toutes les études, quelles que soient leurs motivations, soient basées sur une analyse statistique fiable et de qualité. Il faut impérativement pour cela développer une culture du savoir-faire en statistique, en formant les statisticiens à la bonne utilisation de la statistique et en formant les citoyens à lui donner sa place et sa juste interprétation. Enfin et surtout, c’est le devoir du statisticien-citoyen d’être irréprochable dans son approche scientifique : une analyse statistique correctement menée ne devrait jamais pouvoir être contestée ! Georges PARA 24 octobre 2013 © imsepp
Posted on: Tue, 22 Oct 2013 23:03:07 +0000

Trending Topics



Recently Viewed Topics




© 2015