logo

DeepMind et OpenAI : les agents intelligents continuent d'humilier les humains aux jeux vidéo

En attendant une victoire à "Starcraft II", les systèmes d'intelligence artificielle progressent dans leur maîtrise des jeux vidéo complexes et compétitifs. Récemment, DeepMind et OpenAI ont décroché de beaux succès avec leurs agents intelligents.

Les systèmes d’intelligence artificielle aiment bien botter des fesses humaines, ce n’est pas nouveau. Depuis les victoires de Deep Blue contre Gary Kasparov aux échecs, il y a une vingtaine d’années, les jeux de plateau sont devenus des plateformes d’expérimentation idéales pour faire progresser les agents intelligents dans des environnements complexes et face à des joueurs de chair et d'os bien entraînés.

Qu’est-ce que les jeux vidéo apportent de plus ? Le 25 juin dernier, un système d’intelligence artificielle développé par OpenAI, une organisation fondée par Elon Musk, a battu une équipe semi-pro à "Dota 2". Ce jeu en arène, très prisé de la scène e-sport, oppose deux équipes de cinq personnages chacune. Son but est tout simplement de détruire la base du camp opposé.

Objectif Vancouver et e-sport

Pour vaincre ses adversaires, l’équipe de cinq réseaux neuronaux, surnommée OpenAI Five, a dû faire face à des challenges à la fois plus complexes et différents de ceux des jeux de plateau. Contrairement aux échecs ou au jeu de go, un joueur de "Dota 2" ne peut pas percevoir l’ensemble du champ de bataille. Chaque joueur poursuit des objectifs différents et parfois complémentaires, créant ainsi un environnement plus complexe et en perpétuel changement.

The Verge nous apprend ainsi que la quantité d’informations à procéder pour les agents intelligents est bien plus importante : les bots de OpenAI Five doivent choisir entre 1 000 différentes actions possibles (contre 250 au jeu de go et 35 aux échecs à chaque coup) tout en devant traiter 20 000 points de données différents qui représentent ce qui se passe dans le jeu.

C’est donc une autre paire de manches – ou de réseau – et c'est ce qui fait le sel des jeux vidéo pour les IA. C'est la raison pour laquelle les systèmes d'IA ne sont pas encore au niveau sur "Starcraft II". Mais OpenAI a de grandes ambitions pour ses agents intelligents. "Notre équipe composée de cinq réseaux neuronaux, OpenAI Five, a commencé à battre des humains amateurs dans Dota 2. Bien que nous jouons encore aujourd’hui avec des restrictions, nous visons la victoire face à des professionnels lors de l’International du mois d’août avec une sélection de héros limitée", expliquait l’entreprise dans un communiqué.

En effet, en août prochain, se tiendra à Vancouver une compétition internationale de "Dota 2" qui réunira les meilleurs joueurs du monde. Les agents intelligents feront-ils le poids face à des professionnels surentraînés ?

Presque deux siècles d’entraînement

Pour préparer son équipe au tournoi, OpenAI a fait appel à une technique de machine learning qu’on nomme apprentissage profond par renforcement (deep learning reinforcement).

Les agents intelligents d'OpenAI ont joué à "Dota 2" l’équivalent de 180 années chaque jour

L’idée est de ne donner aux agents intelligents que les règles basiques du jeu. Ceux-ci apprennent ensuite les complexités du jeu par l’expérience, en multipliant les parties, les réussites et les erreurs. Pour le combat contre l’équipe semi-pro du mois de juin, OpenAI affirme avoir fait s’entraîner ses bots sur des milliers de processeurs en simultané, de sorte que les agents jouaient à "Dota 2" l’équivalent de 180 années chaque jour. Bien plus, évidemment, que ce qu’un humain est capable de faire.

Travail en équipe et en first person shooter

DeepMind, la firme londonienne spécialisée dans d’intelligence artificielle et rachetée par Google en 2014, utilise des méthodes d'apprentissage profond similaires. L’entreprise, qui s’est faite connaître du grand public pour ses succès au jeu de go avec AlphaGo, a récemment entraîné une trentaine d'agents "coopératifs complexes" au jeu "Quake III Arena", à l'occasion d'un tournoi organisé avec une quarantaine de véritables joueurs. Les équipes étaient générées de manière aléatoire, mêlangeant IA et humains à chaque partie ou presque.

Là, le but n’était pas de détruire la base adverse, mais de capturer des drapeaux et de protéger les siens au sein d’un environnement en 3D évolutif. DeepMind a en effet ajouté une complication en changeant la disposition de la carte du jeu à chaque nouvelle partie de manière procédurale.

Bien que cette forme de "Quake III" soit moins complexe que "Dota 2" et limitée en terme de stratégies possibles, DeepMind a également corsé les parties en mettant les systèmes d’intelligence artificielle au même niveau que les Hommes. C’est-à-dire que les agents n’avaient pas accès à l’ensemble des données brutes des parties, ce qui lui aurait par exemple permis de déterminer la distance à parcourir pour atteindre le drapeau adverse. Les agents intelligents obtenaient ces données à mesure qu’ils avançaient sur la carte, de la même manière que leurs adversaires ou partenaires humains.

Bien sûr, les agents n'ont pas été immergé dans ces parties sans un peu d'entraînement. En utilisant l’apprentissage profond par renforcement, l’équipe de DeepMind a créé un algorithme d’apprentissage nommé For the Win (FTW) et qui a permis d’entraîner les IA en jouant à plus de 450 000 parties de "Quake III". Résultat ? Le taux de victoire des agents FTW est largement supérieur à celui des Hommes. Mieux : DeepMind affirme que les agents intelligents étaient bien plus collaboratifs que ces derniers.

Quelque chose à ajouter ? Dites-le en commentaire.