"Predict the president" est la dernière tentative en date pour prévoir le duel du second tour de la présidentielle grâce au big data. Ses résultats voient François Fillon affronter Marine Le Pen. Mais cette méthode soulève nombre de questions.
Et si c’était Fillon-Le Pen au deuxième tour de l’élection présidentielle ? Ce duel des droites ne paraît plus aussi incongru aux sondeurs qu’à l’époque où le "Penelopegate" a éclaté, semblant enterrer l’avenir politique de François Fillon. Une nouvelle analyse, conduite par des étudiants en master spécialisé big data de l’école d’ingénieurs Télécom ParisTech, va dans ce sens : exit Emmanuel Macron, le favori actuel des sondages.
Le big data — l’analyse algorithmique d’un grand nombre de données — validerait donc la stratégie du "tenir contre vents, marées et mise en examen" du candidat des Républicains. Les conclusions du projet "Predict the President" de Télécom ParisTech, publiées mardi 18 avril, rejoignent celles d’autres "instituts" comme la firme canadienne Filteris ou l’application participative Gov qui voient tous François Fillon passer le premier tour. Toutes ces prédictions ont un point commun : la prise en compte du "bruit médiatique", c’est-à-dire l’analyse de la popularité sur les réseaux sociaux.
Mais les étudiants de Télécom ParisTech ont ajouté leur touche personnelle. En plus des réseaux sociaux, pour être au plus près des électeurs, leur algorithme s’appuie un vaste océan de données publiques au niveau départemental, qui offre plus de matière exploitable que le niveau communal : taux de chômage, couleur politique du président du conseil départemental, densité de population, historique des votes depuis 1981… L'algorithme s'appuie aussi sur les sondages tant honnis depuis la victoire de Donald Trump à la présidentielle américaine. "Les sondages, qui ont leur biais, restent une mine d’or d’informations, et l’indication la plus directe possible des intentions de vote", justifie Davy Bensoussan, interrogé par France 24.
Résultat de leur course : Marine Le Pen remporterait le plus grand nombre de départements. Et François Fillon, sur la foi du "bruit médiatique", parvient à éliminer Emmanuel Macron et Jean-Luc Mélenchon. Les créateurs de "Predict the President" ont confiance dans leur algorithme. Appliqué à l’élection présidentielle de 2012, "nous avons trouvé une marge d’erreur de plus ou moins 2,5 % [par rapport aux résultats]", expliquent-ils.
Mais 2012 n’est pas 2017. La campagne actuelle est plus ouverte que jamais ; le big data peut-il vraiment mettre de l’ordre dans tout ça ? La méthode utilisée suscite nombre de questions auxquelles deux des étudiants de Télécom ParisTech ont tenté de répondre.
Pourquoi avoir placé Emmanuel Macron dans le bloc de gauche ?
Le candidat du mouvement En Marche !, qui clame haut et fort qu’il est ni de gauche, ni de droite, risque d’avaler de travers en consultant les conclusions de "Predict the president". Il aurait probablement préféré être assimilé à la catégorie "centre" (les étudiants ont retenu quatre blocs : gauche, centre, droite et extrême droite). Après tout, François Bayrou — le centriste français par excellence — le soutient.
"Il ne correspond à aucun profil de candidat centriste dans la politique française", rectifie Mohamed Al Ani, un des étudiants ayant participé au projet. Il ajoute que "d’après les sondages, une grande majorité des Français qui ont voté François Hollande se tournent vers Emmanuel Macron". Les étudiants n’ont cependant pas ignoré sa proximité avec le centre. Plus de 40 % des électeurs centristes mettront, d’après l’algorithme, un bulletin Macron dans l’urne, dimanche 23 avril.
La comparaison avec les élections passées est-elle vraiment pertinente ?
La campagne électorale de 2017 ne ressemble à rien de connu dans l’histoire politique récente. Sans même parler des affaires, la fin de la polarisation autour de deux partis (droite républicaine et Parti socialiste) rend dangereux le jeu de nourrir un algorithme des données passées pour les appliquer à la situation présente.
"C’est pour ça que la modélisation mathématique n’était pas facile", reconnaît Mohamed Al Ani. Mais il faut faire avec, assurent les deux étudiants. "L’approche statistique nous impose de nous tourner vers le passé pour y puiser des informations qui restent utiles pour comprendre la situation présente", précise Davy Bensoussan.
Peut-on vraiment tirer des conclusions sur François Fillon à partir des réseaux sociaux ?
Pas étonnant que François Fillon ait été le candidat le plus recherché sur Google. L’actualité judiciaire a été chargée pour lui : il y a fort à parier qu’une grande partie des internautes qui ont tapé François Fillon dans leur moteur de recherche ne voteront pas pour lui.
Twitter, qui a été retenu comme le réseau social politique par excellence par tous ceux qui analysent le "bruit médiatique", n’est pas non plus le reflet idéal de la société française. "On y a affaire à des catégories socioprofessionnelles supérieures, plutôt citadines et très connectées", rappelle Nicolas Vanderbiest, assistant chercheur à l’université de Louvain (Belgique) qui s’est penché sur la pertinence des réseaux sociaux pour prédire le résultat des scrutins. Le royaume des 140 caractères est aussi pollué par des "bots" — comptes automatisés — et des armées de soutiens bien décidées à tweeter plus fort que les autres.
Des critiques insuffisantes, d’après les créateurs de "Predict the President". "Nous avons comparé avec ce qui s’était passé aux États-Unis et nous avons constaté que durant la campagne, Donald Trump écrasait Hillary Clinton en termes de recherches sur Google et il est assez évident qu’une partie de ces requêtes n’étaient pas de sympathisants du candidat républicain", rappelle Davy Bensoussan pour qui cela révèle surtout d’une "forte émulation autour d’un candidat".
Les étudiants reconnaissent que Twitter a ses limites et c’est la raison pour laquelle le réseau social est utilisé en complément des résultats issus des données géographiques. Qu’il y ait des "bots" ou des fans suractifs ne changerait rien à la donne. "Concernant Google, nous avons pris l’hypothèse que mieux vaut parler d’un candidat, même si cela créé un ‘bad buzz’, que de ne pas l’évoquer du tout", affirme Davy Bensoussan. François Fillon a probablement fait le même pari.