Dakarinfo

Obtenez toutes les dernières nouvelles et rapports sur la FRANCE ici Manchettes, politique et culture françaises sur la chaîne d'information

Les capacités émergentes des grands modèles linguistiques sont un mirage

Les capacités émergentes des grands modèles linguistiques sont un mirage

La copie originale à Cette histoire Présenté dans Magazine Quanta.

Il y a deux ans, dans un projet appelé Au-delà de l'imitation de jeu standard, ou BIG-bench, 450 chercheurs ont compilé une liste de 204 tâches conçues pour tester les capacités des grands modèles de langage, qui alimentent les chatbots comme ChatGPT. Pour la plupart des tâches, les performances se sont améliorées de manière prévisible et fluide à mesure que les modèles évoluent : plus le modèle est grand, mieux c'est. Mais pour d’autres missions, l’augmentation des capacités n’a pas été aussi fluide. Les performances sont restées proches de zéro pendant un certain temps, puis elles ont bondi. D’autres études ont constaté des augmentations de capacités similaires.

Les auteurs ont décrit cela comme un comportement « révolutionnaire ». D’autres chercheurs l’ont comparé à une transition en physique, comme lorsque l’eau liquide gèle et se transforme en glace. dans papier Publiés en août 2022, les chercheurs ont noté que ces comportements sont non seulement surprenants mais imprévisibles, et qu'ils devraient guider l'évolution des conversations sur la sécurité, le potentiel et les risques de l'IA. Ils appelaient les capacitésurgence« , mot qui décrit des comportements collectifs qui n'apparaissent que lorsqu'un système atteint un haut niveau de complexité.

Mais les choses ne sont peut-être pas aussi simples. Nouveau papier Un trio de chercheurs de l’Université de Stanford avancent que l’émergence soudaine de ces capacités est simplement le résultat de la manière dont les chercheurs mesurent les performances du MBA. Ils soutiennent que les capacités ne sont ni inattendues ni surprenantes. « Le processus de transition est beaucoup plus prévisible que ce que l’on croit », a-t-il déclaré. Sanmi Koijo, informaticien à l'Université de Stanford et auteur principal de l'article. « Les affirmations fortes sur l’émergence ont autant à voir avec la manière dont nous choisissons de les mesurer qu’avec ce que font les modèles. »

Ce n’est que maintenant que nous observons et étudions ce comportement en raison de la taille de ces modèles. Les grands modèles de langage sont formés grâce à une analyse massive Ensembles de données texte– Mots provenant de sources en ligne, notamment des livres, des recherches sur le Web et Wikipédia – et trouvez des liens entre des mots qui apparaissent souvent ensemble. La taille est mesurée en termes de paramètres, ce qui est similaire à presque toutes les façons dont les mots peuvent être liés. Plus il y a de paramètres, plus le LLM peut trouver de connexions. GPT-2 possède 1,5 milliard de paramètres, tandis que GPT-3.5, le LLM qui alimente ChatGPT, en utilise 350 milliards. GPT-4, qui a fait ses débuts en mars 2023 et constitue désormais la base de Microsoft Copilot, serait utilisé pour 1,75 billion de dollars.

Cette croissance rapide a conduit à une augmentation étonnante des performances et de l'efficacité, et personne ne conteste que les titulaires de diplômes de maîtrise suffisamment importants peuvent accomplir des tâches que les modèles plus petits ne peuvent pas accomplir, y compris des tâches pour lesquelles ils ne sont pas formés. Le trio de Stanford, qui a qualifié cette ascension de « mirage », se rend compte que les LLM deviennent plus efficaces à mesure qu’ils se développent ; En fait, Complexité supplémentaire Des modèles plus grands devraient permettre d’améliorer la résolution de problèmes plus difficiles et plus diversifiés. Mais ils soutiennent que le fait que cette amélioration semble régulière et prévisible ou irrégulière et abrupte résulte du choix de la mesure – ou même de la rareté des exemples de test – plutôt que du fonctionnement interne du modèle.