logo

La filiale d'Alphabet a dévoilé dans un article ses avancées en matière d'apprentissage par renforcement, qui consiste à optimiser les réactions d'une machine en fonction de ses expériences et d'un type de récompense reçu. En images, c'est plutôt chou.

Vous vous souvenez de cette fois on l’on avait levé le voile sur la psyché du réseau de neurones artificiel de Google après lui avoir demandé d’interpréter différentes images ? L’intelligence artificielle voyait des chiens partout, et c’était aussi étrange que beau.

Aujourd’hui, on sait aussi que DeepMind, l’intelligence artificielle de Google qui tente de repousser toujours plus loin les limites de l’apprentissage automatique et des neurosciences des systèmes, est capable de comportements tout aussi adorables. Dans un article mis en ligne par l’entreprise britannique sur le site de la Cornell University et relayé par The Verge, DeepMind nous montre comment l’apprentissage par renforcement permet à des IA de se déplacer dans des environnements complexes et inconnus.

Intitulé "L’émergence des comportements de locomotion dans un environnement riche", le compte-rendu stipule "qu'en utilisant une nouvelle variante évolutive de l'apprentissage par renforcement, [les] agents apprennent à courir, à sauter, à s'accroupir et à tourner selon les besoins de l'environnement sans conseils explicites basés sur des récompenses."

Agents having fun in Parkour! Cool paper from colleagues at DeepMind https://t.co/X0PwKXrQ2M pic.twitter.com/yMT6XCNv45

— Oriol Vinyals (@OriolVinyalsML) 10 juillet 2017

Évidemment, regarder un petit bâton avec des jambes enjamber des obstacles et faire des limbos a de quoi faire sourire, mais ce qu’il accompli là est en réalité hautement prometteur d’un point de vue technologique. C’est bien la machine seule – et donc le petit bâton – qui décide de sauter ou de se baisser lorsque le parcours l’exige. Seuls les capteurs virtuels lui permettant de prendre des décisions ont été programmés par l’homme. À force d'expériences et de récompenses, positives ou négatives, offertes par l'environnement (s'il tombe dans un trou, la récompense sera négative, et inversement s'il réussit à sauter et à se réceptionner sur l'autre versant), l'agent apprend à devenir autonome.

Concrètement, c’est ce type d’apprentissage qui permettra à terme à nos robots de s’adapter à tous types de terrains (ce qu'il savent à vrai dire déjà faire, et nombre de vidéos nous l'ont déjà prouvé), ou encore de réagir de façon appropriées face à des situations imprévues. Espérons maintenant qu'ils auront tous l'air aussi inoffensifs que ce petit bâton avec des jambes. Quoique.

Extrait de "Fantasia" de Disney.

Quelque chose à ajouter ? Dites-le en commentaire.