Deux modèles pour la Ligue 2

En ce jour où commence un événement sportif mineur appelé « Euro », notre footomancien Yanartus ne pouvait manquer de revenir sur une compétition d’un tout autre calibre : la Ligue 2 française.

Par Yanartus le footomancien.

Le championnat de France de football de Ligue 2 est une compétition opposant 20 équipes au cours de laquelle chacune rencontre deux fois tous ses adversaires, une fois sur son propre terrain, une fois sur le terrain adverse. Chaque équipe dispute donc 38 matches (sur une « saison N » qui s’étale du mois d’août de l’année N–1 au mois de mai de l’année N) et le championnat compte en tout 380 matches. Lors de chaque rencontre, le vainqueur éventuel marque trois points, le perdant éventuel aucun point et, en cas de match nul, les adversaires inscrivent chacun un point.

En fin de saison, les vingt équipes sont classées en fonction du nombre total de points qu’elles ont inscrits. Les trois premières équipes sont promues en division supérieure (Ligue 1) pour la saison suivante, les trois dernières sont reléguées en division inférieure (National), d’où l’importance de la troisième place (dernière assurant la « montée ») et de la dix-huitième (première condamnant à la « descente »). Les quatorze autres équipes se maintiennent en Ligue 2 en vue de la saison suivante.

L’objectif de cet article est de simuler des classements de Ligue 2 à l’aide de deux modèles tirant au sort les résultats des 380 matches et s’appuyant sur les championnats passés (depuis la saison 1999-2000 jusqu’à la saison 2015-16 qui s’est terminée le 13 mai dernier) et d’analyser la capacité prédictive de ces deux modèles.

Quelques éléments statistiques sur les récents championnats de Ligue 2

Les deux modèles nécessitent des paramètres qui sont établis à l’aide de l’analyse des résultats des dix-sept derniers championnats de Ligue 2.

La figure 1 donne la moyenne et l’écart-type du nombre de points obtenus par les vingt équipes.[1]

Figure1

Figure 1 : pour les saisons 1999-2000 à 2015-16 du championnat de France de Ligue 2, moyenne (en bleu) et écart-type (en rouge) du nombre de points inscrits par les vingt équipes.

On constate une très grande stabilité de la moyenne de points (50,9 en moyenne depuis 2000, avec un écart-type de seulement 0,29)[2] et des variations un peu plus importantes de l’écart-type (11,2 en moyenne, avec un écart-type de 1,42) : d’une saison à l’autre, le championnat est plus ou moins « serré ».

La figure 2 donne les nombres de points inscrits par le dernier promu (troisième du championnat), en bleu, et par le premier relégable (dix-huitième du championnat), en rouge pour les saisons 1999-2000 à 2015-16 (l’abscisse correspond à l’année de fin de saison).

Figure2

Figure 2 : pour les saisons 1999-2000 à 2015-16 du championnat de France de Ligue 2, nombre de points inscrits par le troisième en bleu ; nombre de points inscrits par le dix-huitième en rouge.

Sur cette période, on ne constate donc aucune évolution significative du nombre de points nécessaires pour accéder à la Ligue 1 ou éviter la relégation en National.[3] La moyenne de points inscrits par le troisième est de 65,4, celle du dix-huitième est de 40,2, avec des écarts-types respectivement de 2,54 et 1,95.[4]

Le but de l’étude présentée ici est d’étudier deux modèles pour retrouver ces valeurs approximatives de moyenne et écart-type du nombre de points inscrits par les équipes au cours d’une saison et surtout de nombre de points nécessaires pour être troisième et dix-huitième. Ces deux modèles déterminent au hasard les résultats de tous les matches ; l’un postule des forces équivalentes des vingt équipes participantes et l’autre prend en compte les niveaux des participants.

Ainsi nous pourrons déterminer si le classement d’un championnat de Ligue 2 peut être intégralement attribué au hasard (les premiers étant premiers simplement car ils ont plus de chance que leurs concurrents au cours de la compétition) ou s’il est nécessaire de tenir compte de niveaux a priori et dans quelle mesure ces différences de niveau constituent un avantage déterminant dans la compétition.

Un premier modèle : équipes de niveaux égaux

Dans ce modèle, les vingt équipes sont traitées de la même façon : les probabilités de victoire de l’équipe recevante, de match nul ou de victoire de l’équipe visiteuse sont identiques à chaque match.

L’analyse des résultats passés du Championnat de France de Ligue 2 permet de déterminer ces probabilités. Sur les dix-sept dernières saisons, comportant chacune 380 matches, il y a eu en moyenne 172,4 victoires à domicile (écart-type : 8,58), 121,8 matches nuls (écart-type : 5,84) et 85,8 victoires à l’extérieur (écart-type : 6,85). Pour l’équipe recevante, la probabilité de victoire est donc de 45,3 %, la probabilité de match nul 32,1 % et celle de défaite 22,6 %.[5]

La figure 3 donne l’évolution des résultats depuis la saison 1999-2000.

Figure3

Figure 3 : pour les saisons 1999-2000 à 2015-16 du championnat de France de Ligue 2, nombre de victoires de l’équipe recevante (Rec) en bleu ; nombre de matches nuls (Nul) en rouge ; nombre de victoires de l’équipe visiteuse (Vis) en vert.

On constate là aussi la stabilité de ces nombres, avec peut-être une impression de diminution du nombre de victoires à domicile et d’augmentation des victoires à l’extérieur, l’œil étant influencé par l’évolution sur les trois dernières saisons.

Dans ce premier modèle, on considère donc que, pour chaque match, la probabilité de victoire de l’équipe recevante est de 45,3 %, la probabilité de match nul est de 32,1 % et la probabilité de victoire de l’équipe visiteuse est de 22,6 %.

En s’appuyant sur ces probabilités, le modèle détermine au hasard le résultat des 380 matches et fournit un classement. À l’issue de la répétition de cent simulations de championnats de Ligue 2 selon ce modèle, on obtient :

Moyenne du nombre de points obtenus par les vingt équipes : 51,2 (écart-type sur la distribution des cent simulations : 0,40) (observé depuis 17 ans : 50,9)

Écart-type sur la distribution du nombre de points obtenus par les vingt équipes : 9,5 (écart-type sur la distribution des cent simulations : 1,13) (observé depuis 17 ans : 11,2)

Nombre de points obtenus par le troisième : 60,1 (écart-type sur la distribution des cent simulations : 2,59) (observé depuis 17 ans : 65,4)

Nombre de points obtenus par le dix-huitième : 41,4 (écart-type sur la distribution des cent simulations : 1,97) (observé depuis 17 ans : 40,2)

Par rapport aux championnats « réels », la moyenne de points est très bien simulée, l’écart-type est un peu faible (mais pas très éloigné de ceux classiquement observés). Ces championnats simulés étant un peu plus serrés que les championnats réels, il est logique que la moyenne de points obtenus par le troisième soit un peu basse ; en revanche, celle du dix-huitième correspond très bien aux observations.[6]

Afin d’essayer d’augmenter l’écart-type simulé, on peut donc introduire des différences de niveau entre les équipes, afin de moduler les probabilités des différents résultats en fonction des deux adversaires d’un match. C’est l’objet du second modèle.

Un second modèle : équipes de niveaux différenciés

On suppose à présent que les équipes ont a priori des niveaux différents. Par souci de simplification, on émet l’hypothèse que le niveau d’une équipe est constant au cours de la saison.[7]

Afin de déterminer les probabilités des différents résultats de chaque match, on analyse les résultats lors de chaque saison depuis 2000. Le tableau 1 donne les probabilités des différents résultats des équipes classées troisième, dixième et dix-huitième[8] en fin de championnat sur cette période.

3e 10e 18e
Proba ET Proba ET Proba ET
VD 0,62 0,10 0,46 0,05 0,32 0,08
ND 0,24 0,09 0,31 0,10 0,37 0,15
DD 0,14 0,08 0,23 0,06 0,31 0,11
VE 0,35 0,10 0,21 0,07 0,17 0,07
NE 0,30 0,09 0,31 0,11 0,27 0,09
DE 0,35 0,08 0,48 0,09 0,56 0,07

Tableau 1 : probabilités moyennes (Proba) de victoire à domicile (VD), match nul à domicile (ND), défaite à domicile (DD), victoire à l’extérieur (VE), nul à l’extérieur (NE), défaite à l’extérieur (DE) pour les équipes classées 3e, 10e et 18e en fin de saison depuis 2000, et écarts-type (ET) sur ces distributions de probabilités.

En toute logique, on constate que les victoires sont plus fréquentes pour les équipes les mieux classées et que les victoires à domicile sont plus probables que les victoires à l’extérieur, les conclusions sont inversées pour les défaites. Les écarts-type sur les distributions sont relativement faibles.

Une régression linéaire permet ensuite d’estimer les probabilités des différents résultats moyens pour une équipe en fonction de son classement final.[9]

Le second modèle est construit sur un classement a priori des vingt compétiteurs : on numérote 1 l’équipe la plus forte, 2 la deuxième plus forte et ainsi de suite jusqu’à 20 pour la plus faible. Il est alors aisé de calculer les probabilités de résultat lorsque deux équipes de classements donnés s’affrontent, le résultat est indiqué dans les tableaux 2 à 4.

Tableau2

Tableau 2 : probabilité de victoire à domicile d’une équipe de niveau N (première colonne) recevant une équipe de niveau M (première ligne). Exemple de lecture : lorsque l’équipe 10 (dixième du classement a priori) reçoit l’équipe 3 (troisième du classement a priori), la probabilité de victoire à domicile de l’équipe 10 est de 0,35.

Tableau3.png

Tableau 3 : probabilité de match nul lorsqu’une équipe de niveau N (première colonne) reçoit une équipe de niveau M (première ligne). Exemple de lecture : lorsque l’équipe 10 reçoit l’équipe 3, la probabilité de match nul est de 0,34.

Tableau4.png

Tableau 4 : probabilité de défaite à domicile d’une équipe de niveau N (première colonne) recevant une équipe de niveau M (première ligne). Exemple de lecture : lorsque l’équipe 10 reçoit l’équipe 3, la probabilité de défaite à domicile de l’équipe 10 est de 0,31.

On tire ensuite au sort les résultats des 380 matches en tenant compte de ces probabilités. À l’issue de la répétition de cent simulations de championnats de Ligue 2 selon ce modèle, on obtient :

Moyenne du nombre de points obtenus par les vingt équipes : 51,4 (écart-type sur la distribution des cent simulations : 0,44) (observé depuis 17 ans : 50,9)

Écart-type sur la distribution du nombre de points obtenus par les vingt équipes : 12,5 (écart-type sur la distribution des cent simulations : 1,45) (observé depuis 17 ans : 11,2)

Nombre de points obtenus par le troisième : 66,2 (écart-type sur la distribution des cent simulations : 3,08) (observé depuis 17 ans : 65,4)

Nombre de points obtenus par le dix-huitième : 36,6 (écart-type sur la distribution des cent simulations : 2,69) (observé depuis 17 ans : 40,2)

On constate donc que la moyenne de points, l’écart-type et le nombre de points obtenus par le troisième sont très proches des championnats réels. Il apparaît un écart significatif sur le nombre de points obtenus par le dix-huitième, qui est significativement sous-estimé par le modèle : une explication possible serait une augmentation du niveau des équipes mal classées en fin de championnat lorsqu’elles découvrent qu’il devient urgent d’éviter la relégation.[10]

Par ailleurs, ce modèle fournit des informations sur le « respect de la hiérarchie » : le classement des équipes a priori avant la compétition se retrouve-t-il bien dans le classement final ? La répétition des cent simulations du championnat selon le modèle permet de déterminer les probabilités que les équipes 1 à 3 se retrouvent effectivement dans les trois premiers (et donc accèdent à la Ligue 1) et que les équipes 18 à 20 soient dans les trois derniers (et donc reléguées en National) à la fin de la saison.

Les résultats sont les suivants : l’équipe 1 a 65 % de chances d’être dans les trois premiers, l’équipe 2 62 % et l’équipe 3 42 % ; l’équipe 18 a 51 % de chances d’être dans les trois derniers, l’équipe 19 57 % et l’équipe 20 60 %.

Sa capacité de reproductibilité des championnats réels étant démontrée, ce modèle montre de façon incontestable que le niveau a priori constitue une indication sur le destin d’une équipe dans le championnat de Ligue 2, mais que l’incertitude du sport conserve une part importante : ainsi, une équipe a priori sur le « podium du haut » et une équipe a priori sur le « podium du bas » ont environ une chance sur deux d’y rester. Inversement, cela signifie que les équipes sur les podiums réels à la fin du championnat ont environ une chance sur deux de devoir cette place à leur niveau intrinsèque et une chance sur deux d’y être par chance ou malchance.

La difficulté est évidemment que le classement a priori n’est pas accessible à la mesure et qu’il est donc impossible de séparer les rôles du niveau et de la chance.[11]

[1] Cette étude s’intéressant aux résultats réels des matches, il n’a pas été tenu compte de la pénalité de huit points infligée au club de Nîmes pour la saison 2015-16.

[2] Une rencontre se soldant par un match nul distribue en tout deux points, une rencontre se terminant par une victoire distribue en tout trois points : la stabilité de la moyenne de points est donc liée à la stabilité du nombre de matches nuls, ce qu’on vérifiera dans la figure 3.

[3] On observe néanmoins que l’écart entre le troisième et le dix-huitième est assez variable : entre 17 points en 2010 et 30 en 2007. En toute logique, on constate que cet écart entre le troisième et le dix-huitième est corrélé à l’écart-type de la distribution du nombre de points : tous les deux faibles en 2010 et 2011, tous les deux élevés en 2007 et 2013.

[4] La « barre des 42 points » est fréquemment invoquée comme la condition suffisante pour se maintenir. L’étude présente montre qu’elle n’est pas fondée : certes, ce total de points est souvent suffisant pour le maintien mais il y a eu trois exceptions consécutives (un club relégué avec 43 points en 2009 et 2010, avec 44 points en 2011).

[5] Chaque club dispute en alternance un match à domicile et un match à l’extérieur, sauf en une occurrence chaque saison où il reçoit deux fois consécutivement : une légende urbaine raconte qu’il est quasiment impossible de gagner ces deux matches consécutifs à domicile. En fait, la probabilité de remporter ces deux matches est de 0,4532 = 0,205, faible certes mais qui s’explique simplement par la difficulté à « gagner à la maison » n’importe quel match.

[6] On pourrait presque croire qu’il s’agit là d’une démonstration de la « règle des 42 points » déjà citée.

[7] Cette hypothèse est évidemment discutable car de nombreux facteurs peuvent influer sur le niveau d’une équipe : facteurs plus ou moins crédibles (blessures ou suspensions de joueurs importants), plus ou moins fantasmés (« spirale de la défaite », euphorie, complot arbitral, « loi des séries »…).

[8] On ajoute une équipe de milieu de tableau afin de rendre le modèle plus robuste et on ne prend pas en compte les équipes classées première et dernière afin d’éliminer des concurrents trop faibles ou trop forts qui fausseraient les statistiques.

[9] Ces régressions sont effectuées sur les probabilités de victoire et défaite, dont l’évolution est plus significative et l’écart-type plus faible que celle sur les matches nuls. Une fois connues ces probabilités, celles de match nul se déduisent immédiatement puisque la somme des trois probabilités d’un résultat (victoire, match nul, défaite) est égale à 1.

[10] Cette explication nécessiterait une étude statistique du nombre de points du dix-huitième au cours de la saison, afin d’identifier une éventuelle augmentation de sa moyenne de points par match en fin de parcours.

[11] Même si certains supporters ont des avis très arrêtés sur la question.

 

Publicités

4 réflexions au sujet de « Deux modèles pour la Ligue 2 »

  1. { cela signifie que les équipes sur les podiums réels à la fin du championnat ont environ une chance sur deux de devoir cette place à leur niveau intrinsèque et une chance sur deux d’y être par chance ou malchance.} … et pour l’évolution du climat et de la température de la Terre?

    J'aime

    • Un championnat de foot recommence chaque année ; les données statistiques s’accumulent.
      Pour le climat et la planète il n’y a pas de répétition possible de la seule expérience en cours.
      Les simulations de divers modèles selon des paramètres choisis peuvent, elles, être répétées à l’envi, sans qu’il soit possible d’en déterminer la validité,
      Une anecdotique correspondance avec la seule série de données d’observation dont on dispose.ne peut valider le modèle, par contre le manque de correspondance l’invalidera, comme c’est le cas des 98 modèles retenus par le GIEC.

      J'aime

  2. Ping : JO 2016 : jour 9, la science au service des Jeux Olympiques | Mythes, Mancies & Mathématiques

  3. Ping : Jeux Olympiques : comment la science est au service du sport | Contrepoints

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s