Des chercheurs de l'Institut de technologie du Massachusetts (MIT) ont fait visionner plus de 600 heures de séries télé à un ordinateur et élaboré un algorithme capable de prédire les comportements des humains dans certaines situations.
Gabrielle Solis et Bree Van de Kamp s’approchent l’une de l’autre sur une des pelouses proprettes de Wisteria Lane. Vont-elles se serrer la main ? S’enlacer ? S’embrasser ? Se taper dans la main ? Vous et moi savons que les deux "Desperate Housewives" sont bonnes copines, et qu’elles vont sûrement se claquer une bise, comme elles le font souvent.
Mais qu’en est-il d’un ordinateur ? À priori, la pauvre machine aura bien du mal à prédire le comportement des deux femmes, par manque d’expérience.
Des chercheurs du Laboratoire d’intelligence artificielle et de science informatique (CSAIL) du MIT comptent bien remédier à cette infamie. Ils sont parvenus à développer un algorithme capable de prédire des actions humaines avec une technique un peu particulière : le visionnage compulsif de séries télé.
Au total, près de 600 heures de vidéos extraites de "Big Bang Theory", "Desperate Housewives" ou encore "The Office" – choisies selon le classement des meilleures séries de Google – ont été visionnées par un ordinateur pour nourrir un algorithme prédictif.
Quand les personnages de série deviennent les cobayes de la science
“Les humains apprennent automatiquement à anticiper les actions grâce à l’expérience, c’est le même genre de sens commun que nous voulons aussi apprendre aux ordinateurs", explique Carl Vondrick, co-auteur de l’étude, sur le site du MIT. Et pour parvenir à insuffler le sens commun aux machines, Carl Vondrick et ses collègues ont isolé des milliers scènes issues de série télé montrant des gestes simples comme conduire, manger, interagir avec des humains ou des objets.
Dans l’exemple qu’ils présentent, quatre actions sont présentées à l’ordinateur : le calin, le bisou, le serrage de main et le tapage de main. Après avoir montré des milliers de séquences à un système neuronal, les scientifiques isolent une scène en particulier et arrêtent l’image juste avant que l’action ne se produise, puis demande à l’algorithme de prédire la suite.
Deep-learning algorithm uses TV shows to predict hugs, kisses & high-fives: https://t.co/mqvCVgzfPy pic.twitter.com/yromEEPXsN
— CSAIL at MIT (@MIT_CSAIL) 21 juin 2016
Dans 43 % des cas, l’algorithme prédictif avait raison. C’est certes bien moins que le score des hommes (71 %), mais mieux que les précédentes expériences menées sur le sujet (36 %).
Regarder des séries pourrait donc finalement rendre plus intelligent, mais les ordinateurs sont encore loin de devenir devins. “Il y a beaucoup de subtilités dans la compréhension et la prédiction des interactions humaines”, reconnaît Carl Vondrick. Mais l’idée qu’un algorithme puisse se perfectionner en se nourrissant de vidéos rend ce futur un peu plus tangible.
Les chercheurs espèrent utiliser cet exemple pour pouvoir bientôt prédire des interactions encore plus complexes. Et un jour peut-être, l’algorithme pourrait même prédire les comportements les plus tordus des habitants un peu fous de Wisteria Lane.
Quelque chose à ajouter ? Dites-le en commentaire.