Le chatbot ChatGPT, largement utilisé, est conçu pour créer du texte numérique, de la poésie aux documents de recherche en passant par les programmes informatiques. Mais lorsqu’une équipe de chercheurs en intelligence artificielle de la société de puces informatiques Nvidia a mis la main sur la technologie sous-jacente du chatbot, ils ont réalisé qu’il pouvait faire bien plus.
En quelques semaines, ils lui ont appris à jouer à Minecraft, l’un des jeux vidéo les plus populaires au monde. Dans le monde numérique de Minecraft, j’ai appris à nager, à cueillir des plantes, à chasser des cochons, à extraire de l’or et à construire des maisons.
« Il peut entrer dans le monde de Minecraft et explorer par lui-même, collecter des matériaux par lui-même et s’améliorer dans toutes sortes de compétences », a déclaré Linxi Fan, chercheur principal chez Nvidia, connu sous le nom de Jim.
Le projet Il s’agit d’un premier signe que les plus grands chercheurs mondiaux en IA transforment les chatbots en un nouveau type de système autonome appelé agent IA. Ces agents peuvent faire plus que simplement discuter. Ils peuvent utiliser des applications logicielles, des sites Web et d’autres outils en ligne, notamment des feuilles de calcul, des calendriers en ligne, des sites Web de voyage, etc.
Selon de nombreux chercheurs, au fil du temps, les agents IA pourraient devenir beaucoup plus sophistiqués, remplacer les employés de bureau et automatiser presque toutes les fonctions administratives.
« C’est une énorme opportunité commerciale, potentiellement d’une valeur de plusieurs milliards de dollars », a déclaré Jeff Clune, professeur d’informatique à l’Université de la Colombie-Britannique, qui a déjà travaillé sur ce type de technologie en tant que chercheur à OpenAI, une startup de San Francisco qui a construit la technologie. ChatGPT. « Cela présente un énorme avantage – et de graves conséquences – pour la société. »
Agent Nvidia jouant à un jeu. Des agents similaires peuvent planifier des réunions, modifier des fichiers, analyser des données et créer des graphiques à barres multicolores. L’idée est que ces systèmes automatisés agiront à terme comme des assistants personnels capables de gérer un large éventail de tâches en ligne.
Les agents d’aujourd’hui sont limités et ne peuvent pas exactement organiser votre vie. ChatGPT peut rechercher sur le site de voyage Expedia des vols à destination de New York, mais vous devez toujours réserver vous-même.
Cette technologie, à mesure que les chercheurs l’amélioreront, pourrait rendre les employés de bureau et les consommateurs plus efficaces. Cela pourrait également changer la nature des jeux vidéo, en fournissant une nouvelle vague de robots avec lesquels les joueurs peuvent jouer et discuter.
GPT-4, la technologie qui alimente ChatGPT, est ce que les chercheurs appellent un grand modèle de langage. Il s’agit d’un système d’intelligence artificielle qui acquiert des compétences en analysant d’énormes quantités de données.
Au cours des derniers mois, cette technologie a épaté des centaines de millions de personnes par la manière dont elle crée des e-mails, rédige des discours et chante des chansons sur presque tous les sujets. Mais sa compétence la plus importante est peut-être son talent pour l’écriture de programmes informatiques.
Il peut créer instantanément un programme qui dessine une licorne ou dépose numériquement des flocons de neige sur l’écran de son ordinateur portable. Les développeurs de logiciels professionnels peuvent commander du code qu’ils peuvent intégrer dans des programmes plus vastes, allant des applications de médias sociaux aux moteurs de recherche. Mais ce n’est qu’une partie de ce que cette technologie peut faire. Il peut également générer du code informatique pouvant être utilisé dans d’autres applications logicielles et sites Web.
C’est ainsi que le Dr Fan et d’autres chercheurs de Nvidia ont enseigné à GPT-4 comment jouer à Minecraft. « Le mot le plus important ici est code », a déclaré le Dr Fan. « Le code peut agir. »
Les gens utilisent des applications logicielles et des sites Web en touchant des boutons, des menus et d’autres outils graphiques. Les agents d’IA utilisent des applications et des sites Web en accédant à leurs interfaces de programmation d’applications, ou API, le code logiciel sous-jacent qui leur permet de communiquer avec d’autres services en ligne.
Si vous demandez à un agent de télécharger une vidéo sur Internet, par exemple, il peut générer un code appelé interface de programmation d’application (API) fournie par YouTube. « Une API n’est qu’un texte utilisé pour parler à une machine », a déclaré Selin Nayhin, un chercheur qui participe au projet d’agent d’IA autonome AutoGPT.
En théorie, un chatbot peut écrire du code pour accéder à n’importe quelle API sur Internet. Mais les chatbots d’aujourd’hui ne sont pas suffisamment compétents pour faire plus que des tâches simples. Même si tel était le cas, leur permettre de se déplacer librement en ligne constituerait un énorme risque pour la sécurité. Les entreprises ont donc commencé modestement.
Quelques mois après qu’OpenAI a dévoilé ChatGPT, il a discrètement publié un moyen permettant à un chatbot de faire plus que simplement générer du texte. Après avoir installé plusieurs plug-ins (un logiciel qui améliore ce que le robot peut faire), vous pouvez lui demander de rechercher des sites de voyage comme Expedia pour les vols disponibles, d’obtenir une carte de votre ville à partir de Google Earth ou même de convertir une feuille de calcul détaillant vos dépenses annuelles. .. Graphique à barres multicolore.
Parce qu’il est livré avec un plugin appelé compilateur de code, ChatGPT peut non seulement écrire du code, mais également l’exécuter. Cela a permis à la technologie d’effectuer instantanément des tâches qu’elle ne pouvait pas effectuer dans le passé, notamment l’édition de feuilles de calcul et la conversion d’images fixes en vidéos. Google, Microsoft et d’autres sociétés explorent des technologies similaires.
« Il s’agit de projets dans lesquels nous envisageons que l’IA travaille essentiellement avec d’autres IA en votre nom », a déclaré Ashley Lawrence, vice-président de Microsoft.
Des projets indépendants comme AutoGPT tentent d’aller plus loin dans ce genre de choses. L’idée est de donner au système des objectifs tels que « créer une entreprise » ou « gagner de l’argent ». Il cherchera ensuite les moyens d’atteindre cet objectif en se posant des questions et en se connectant à d’autres services Internet.
Aujourd’hui, cela ne fonctionne pas très bien. Les systèmes comme AutoGPT ont tendance à rester bloqués dans des boucles sans fin. Mais des chercheurs comme le Dr Fan travaillent constamment à améliorer ce type de technologie afin de le rendre plus utile et plus fiable.
D’autres chercheurs construisent un nouveau type d’agent d’intelligence artificielle conçu pour utiliser des outils logiciels. À l’été 2022, le Dr Clune faisait partie d’une équipe de chercheurs d’OpenAI qui a construit un agent capable de cela. Utiliser des programmes informatiques autant qu’une personne le ferait – Clic de souris après clic de souris, frappe après frappe.
Le Dr Clune et ses collègues ont alimenté le système pendant des heures avec des vidéos en ligne montrant des personnes jouant à Minecraft. En analysant la façon dont les gens utilisent la souris et le clavier pour naviguer dans le monde numérique de Minecraft, le système a appris à exécuter le jeu de manière autonome.
D’autres entreprises construisent, dont une startup appelée Adept Agents similaires Qui utilise des sites Web comme Wikipedia, Redfin et Craigslist, ainsi que des applications bureautiques populaires d’entreprises comme Salesforce.
Le Dr Clune affirme que ce type d’agent permettra à terme à l’IA d’utiliser une gamme beaucoup plus large d’applications logicielles et de sites Web. Tout le monde aura accès à un assistant numérique capable de faire presque tout sur Internet, a-t-il déclaré. Cela faciliterait la vie, mais pourrait également remplacer d’innombrables emplois.
« Si l’IA peut faire tout ce que nous pouvons faire, elle ne se contente pas de remplacer des tâches ennuyeuses », a-t-il déclaré. « Cela remplace toutes les tâches. »
« Évangéliste des médias sociaux. Baconaholic. Lecteur dévoué. Chercheur de Twitter. Pionnier avide du café. »
More Stories
Apple annonce l’expansion de Vision Pro dans deux pays supplémentaires
Nintendo lance une application musicale avec des thèmes de Mario et Zelda et, plus important encore, une chaîne Wii Shop
C’est le journal que personne n’a lu avant d’annoncer la disparition de la cryptographie moderne.