La Coupe du Monde de football en Russie s’est terminée il y a plus d’un mois et ce site n’en a pas encore parlé. Vu le résultat final et les possibilités d’analyser un match de football avec des chiffres, ce serait dommage de s’en priver. Nous allons donc identifier quelques outils de description statistique d’un match de football et, dans l’article de demain, nous verrons que ces outils peuvent être utilisés pour prévoir les probabilités des issues possibles du match.
Contrairement à la plupart de sports de balle où de nombreux points sont inscrits au cours du match (handball, volley, basket, rugby dans une moindre mesure ; tennis pour les sports individuels), le football se caractérise par des scores extrêmement réduits. Par exemple, il y a eu 2,72 buts par match du Championnat de France de Ligue 1 au cours de la saison 2017-18, moyenne plutôt élevée par rapport aux saisons précédentes. La Coupe du Monde 2018 est dans la même zone avec 2,64 buts par match.
Cet aspect discontinu rend le football assez aléatoire (ce qui contribue probablement à son charme) et rend les analyses statistiques sur les matches plus compliquées que dans les autres sports de balle.
Les statistiques de la FIFA
Les choses évoluent néanmoins et on trouve maintenant sur les sites officiels des compétitions de nombreuses statistiques : nombre de tirs, de tirs cadrés, de fautes, de passes, taux de passes réussies, possession (proportion du temps où chaque équipe a le ballon)…
Le site officiel de la FIFA fournit ainsi beaucoup d’informations, collectives et individuelles sur chaque match. Par exemple, sur la finale, on apprend facilement (onglet « Statistics ») que la France a effectué 8 tirs contre 15 à la Croatie, mais que 6 d’entre eux étaient cadrés contre seulement 3 pour les Croates. On découvre également que la France n’a eu le ballon que 39 % du temps, ce qui ne constitue pas une surprise par rapport à l’impression visuelle du match. On a également accès (fichiers pdf en bas de la page dans l’onglet « Match Facts ») à de nombreuses statistiques individuelles : réseau de passes (pour la France, le plus grand nombre de passes entre deux joueurs est atteint par Lloris vers Giroud, avec 10 occurrences, ce qui traduit un jeu assez « direct ») ou positionnement des joueurs sur le terrain par exemple :
On reconnaît bien le positionnement d’un arrière latéral droit, d’un milieu de terrain et d’un attaquant très délocalisé et chargé de beaucoup de tâches défensives, rouage essentiel de l’équipe, qui doit beaucoup à ce qu’il a appris pendant deux ans au Tours Football Club.
Petit jeu d’application : cher lecteur, sauras-tu reconnaître à quels joueurs français correspondent les cartes suivantes, toujours lors de la finale ?
Ces statistiques donnent déjà un aperçu de la rencontre : on peut déduire de ces informations sur la finale que la France a joué en « bloc bas », qu’elle a laissé le ballon à son adversaire et qu’elle a probablement été plus « réaliste ».
Ces statistiques sont impressionnantes sur certains matches. Par exemple, en huitième de finale, la Russie s’est qualifiée en ayant le ballon 25 % du temps, en effectuant un seul tir cadré (et encore, sur penalty !). Il est vrai que son adversaire s’est fait une spécialité de confisquer le ballon à son adversaire et de n’en rien faire, mais il s’est surpassé sur ce match. Avec le nombre ahurissant de 1031 passes réussies en 120 minutes (8,6 passes par minute), contre 204 à la Russie (la moyenne sur les huitièmes de finale a été de 4,4 passes par minute), l’adversaire des Russes a réussi une magnifique démonstration du football de possession qu’il pratique depuis dix ans. Mais sans aucune profondeur, accélération ou recherche de décalage, sans sélectionneur et avec une défense de vieillards gaffeurs, il lui est arrivé ce qui devait lui arriver : retour à la maison.
Voici, pour rire, les cartes des positions des deux joueurs qui se sont succédé au poste d’avant-centre de la Russie, et de l’arrière latéral gauche de l’adversaire :
Manifestement, ces seules données ne permettent pas de prévoir le vainqueur du match, qui n’est pas nécessairement l’équipe qui a le plus le ballon ou l’équipe qui joue le plus haut…
Où le tireur escompte plus ou moins un but
Il faut donc créer d’autres variables pour analyser plus finement un match. L’une de ces variables est le « nombre de buts escomptés », « expected goals » en anglais, traditionnellement noté « xG ». Le principe de calcul de cette grandeur est le suivant : au cours de milliers de matches, le résultat des tirs a été analysé en fonction de la position du tireur, du fait que le « tir » soit effectué du pied ou de la tête, que ce soit un face-à-face avec le gardien, de la nature de la passe éventuelle (longue ouverture, passe courte, centre-en-retrait-l’arme-absolue…)… Ainsi, en fonction de ces paramètres, sur un très grand échantillon de matches, il est possible de déterminer une probabilité que le but soit inscrit lors d’un tir réalisé dans des conditions bien définies. Évidemment, plus la distance au but est grande et plus l’angle est fermé, plus cette probabilité est faible, ce qui est illustré ici pour le but de Pavard contre l’Argentine, élu but de la Coupe du Monde, sur un tir dont le xG vaut 0,03, c’est-à-dire que sur cent tirs dans ces circonstances, seulement trois donnent un but. Situation inverse, un penalty a un xG de 0,80 car cette situation donne un but dans 80 % des cas.
On peut ainsi calculer le nombre de « buts escomptés » pour une équipe au cours d’un match, en fonction des tirs qu’elle a tentés et de la « qualité » des circonstances de chacun de ces tirs. Le récapitulatif des buts escomptés pour toutes les équipes (juste avant la finale) est fourni, toujours dans cet article : buts escomptés pour et contre chaque équipe et buts réels (« actual goals »). On peut ainsi comparer le nombre de buts escomptés et réellement inscrits par une équipe, et en déduire son « réalisme » offensif ou défensif. Par exemple, au cours de ses six premiers matches, la France a essuyé un total de 3,8 buts escomptés, et en a en pratique réellement encaissé 4, l’accord est donc excellent. En revanche, elle a bénéficié de 7,9 buts escomptés et en a inscrit 10, d’où une « sur-performance » de buts réellement inscrits par rapport aux occasions, traduisant le « réalisme » de ses attaquants (ou la maladresse des défenses adverses, comme sur le second but contre l’Uruguay).
Le Brésil escompte plus qu’il ne fait
Les chiffres concernant le Brésil sont instructifs. L’accord est très bon en ce qui concerne les buts encaissés (3 buts réels pour 3,0 buts escomptés) mais beaucoup moins pour l’aspect offensif : avec 8 buts réels contre 12,3 escomptés, les attaquants brésiliens ont très largement sous-performé. Ce fut fatal à cette équipe lors de son quart de finale contre la Belgique, qu’elle a virtuellement gagné 2,83 buts escomptés à 0,49 mais perdu sur le terrain 2 buts à 1. Au cours de ce match, le Brésil a cumulé la sous-performance offensive (beaucoup d’occasions ratées) et la sous-performance défensive : premier but contre son camp sur un magnifique duel aérien entre deux brésiliens alors qu’aucun adversaire n’est à proximité immédiate (les buts encaissés sur corner sont une habitude pour cette équipe, la nouveauté est qu’elle n’ait même plus besoin d’adversaire pour les prendre) puis dramatique passivité défensive sur le second but.
Puisqu’on en est à parler du Brésil, éternel favori des Coupes du Monde, tellement favori qu’on ne se souvient même plus quand il a gagné cette compétition pour la dernière fois… Depuis 2006, le Brésil a joué cinq fois contre des équipes européennes lors des matches à élimination directe (c’est-à-dire à partir des huitièmes de finale) et son bilan est le suivant : 0 victoire, 0 match nul, 5 défaites, 2 buts pour, 15 buts contre. On peut vraiment se demander comment ce pays est toujours considéré comme le favori vu ces résultats.
Les petits espoirs font les grands résultats
L’évolution des scores au cours des matches de cette Coupe du Monde en termes de buts escomptés est en accès libre ici, en sélectionnant le match souhaité dans le menu déroulant sur la droite de la page. Nous allons pouvoir tester la cohérence de ce paramètre xG sur des matches réels.
Avec ce paramètre, au premier tour, la France a battu l’Australie 1,37 à 1,09 (l’essentiel du xG de chaque équipe étant dû à un penalty) puis dominé le Pérou 1,90 à 0,44 et enfin écrasé le Danemark 0,39 à 0,17 : l’accord est très correct avec les scores réels (respectivement 2-1, 1-0 et 0-0), et aussi par rapport aux impressions (forcément subjectives) laissées par ces matches.
Le huitième de finale contre l’Argentine est gagné 2,16 à 0,82, très en deçà du score réel (4-3), qui lui-même traduit assez mal la large domination tactique de la France qui a encaissé trois buts un peu « venus d’ailleurs » (surtout les deux premiers). Le quart de finale est perdu contre l’Uruguay 0,91 à 0,46, alors qu’il est gagné 2-0 sur le terrain. En fait, le score de l’Uruguay est dû au 0,58 but attendu de la 44eminute (double occasion annihilée par Lloris) mais on voit sur cet exemple que le score en buts escomptés traduit mal l’impression de « gestion sereine » de la France au cours de ce match.
La demi-finale contre la Belgique est gagnée 2,03 à 0,53 (score réel 1-0), ce qui tempère les critiques des Nosamisbelges sur le jeu pratiqué par la France, alors qu’ils ont été incapables de se créer des occasions franches, contrairement à la France qui marque sur une de ses situations les moins favorables.
Enfin, l’analyse de la finale par les buts escomptés est instructive. Sur le terrain, la France a gagné le match 4-2, en remportant les deux mi-temps 2-1. Mais tous les observateurs ont constaté une équipe de France largement dominée pendant les 45 premières minutes, au terme desquelles le score 2-1 relève du miracle, puis une équipe beaucoup plus en maîtrise en seconde période, profitant de situations de contres (et aussi de la blessure du gardien croate lors d’un match précédent, qui a semblé bien statique sur les deux derniers buts français…). Le score global en termes de buts escomptés sur l’ensemble du match est de 1,25 à 1,04 pour la Croatie : ça, ce n’est pas absurde sur la physionomie du match, mais, plus étonnant, il est de 0,80 à 0,53 pour la France au terme de la première mi-temps où elle a été copieusement dominée (ce 0,80 correspond au seul penalty de la 38e minute puisque le but de la 17e minute est contre-son-camp et compte comme 0,00 but attendu…), alors que la Croatie gagne la seconde mi-temps 0,72 (dont 0,54 pour l’invraisemblable but de Mandzukic) à 0,24.
On le voit, ce paramètre buts escomptés donne des indications, mais il a ne traduit pas toujours bien ni le score ni « l’impression subjective » sur le déroulement du match. En tout cas, ce n’est guère mieux que la possession, le nombre de passes réussies ou le nombre de tirs.
Voici un récapitulatif statistique des sept matches de Lébleus.
Adversaire | Buts réels | xG | Possession (FRA) | Passes réussies | Tirs | ||||
FRA | Adv | FRA | Adv | FRA | Adv | FRA | Adv | ||
Australie | 2 | 1 | 1,37 | 1,09 | 51 % | 423 | 332 | 12 | 4 |
Pérou | 1 | 0 | 1,90 | 0,44 | 44 % | 311 | 431 | 12 | 10 |
Danemark | 0 | 0 | 0,39 | 0,17 | 62 % | 581 | 224 | 5 | 11 |
Argentine | 4 | 3 | 2,16 | 0,82 | 41 % | 295 | 471 | 9 | 9 |
Uruguay | 2 | 0 | 0,91 | 0,46 | 58 % | 427 | 215 | 11 | 11 |
Belgique | 1 | 0 | 2,03 | 0,53 | 40 % | 294 | 565 | 19 | 9 |
Croatie | 4 | 2 | 1,04 | 1,25 | 39 % | 202 | 456 | 8 | 15 |
En gros, la conclusion pourrait être : il n’existe pas de paramètre chiffré calculable traduisant l’impression subjective sur un match. Et ce n’est peut-être pas plus mal : il n’y a pas de recette miracle pour gagner une rencontre de football, sport dont l’irrationalité est un des principaux atouts…
En tout cas, nous voici munis d’un grand nombre de statistiques descriptives des matches. Et des statistiques, à quoi est-ce que cela peut bien servir ? À faire des prédictions, bien sûr !
Et ça, ce sera pour demain. La suite au prochain numéro !
Excellent article, comme d’habitude.
Un petit regret cependant : ne pas connaître les résultats du « Petit jeu d’application » ( cher lecteur, sauras-tu reconnaître à quels joueurs français correspondent les cartes suivantes, toujours lors de la finale ?)
J’aimeJ’aime
C’est pour développer l’autonomie du lecteur. Quand il sera sûr d’avoir les bonnes réponses, c’est que ce sera ça…
J’aimeJ’aime
Merci de votre si brillante réponse, que je vais m’empresser de plagier : désormais, quand je commettrai un oubli, j’en appellerai aussi à l' »autonomie » de mon interlocuteur et à sa sagacité.
J’aimeJ’aime
Private joke sur les têtes pensantes de l’Éducation Nationale qui justifient tout et son contraire par la (louable) volonté de « développer l’autonomie des élèves ».
J’aimeJ’aime
Ping : Analyses statistiques de la Coupe du Monde 2018 en Russie (2) | Mythes, Mancies & Mathématiques