Avec la plupart des programmes informatiques, même les plus complexes, vous pouvez retracer le code et utiliser la mémoire avec précision pour le comprendre. Pourquoi Ce programme crée un comportement ou une sortie spécifique. Ce n’est généralement pas le cas dans l’IA générative, où les réseaux neuronaux inexplicables qui sous-tendent ces modèles font qu’il est difficile, même pour les experts, de savoir précisément pourquoi ils combinent souvent des informations, par exemple.
maintenant, Nouvelle recherche d’Anthropic Offre une nouvelle fenêtre sur ce qui se passe à l’intérieur de la « boîte noire » de Claude LLM. Entreprise Nouveau papier Dans « Extraire des caractéristiques interprétables des 3 Sonnets de Claude », il décrit une nouvelle façon puissante d’expliquer au moins partiellement comment des millions de neurones artificiels dans le modèle se déclenchent pour créer des réponses étonnamment réalistes à des requêtes générales.
Ouvrez le capot
Lors de l’analyse du LLM, il est facile de voir quels neurones artificiels spécifiques sont activés en réponse à une requête donnée. Mais un MBA ne stocke pas simplement différents mots ou concepts dans un seul neurone. Au lieu de cela, comme l’expliquent les chercheurs d’Anthropic, « il s’avère que chaque concept est représenté par de nombreux neurones, et que chaque neurone est impliqué dans la représentation de nombreux concepts ».
Pour trier ce chaos de un à plusieurs et de plusieurs à un, commandez Encodeurs automatiques clairsemés Des mathématiques complexes peuvent être utilisées pour opérer Algorithme d’apprentissage du dictionnaire. via le formulaire. Ce processus met en évidence quels groupes de neurones ont tendance à s’activer de manière plus cohérente pour des mots spécifiques qui apparaissent dans différentes invites textuelles.
Ces modèles neuronaux multidimensionnels sont ensuite classés en « caractéristiques » associées à des mots ou des concepts particuliers. Ces caractéristiques peuvent inclure des noms propres simples tels que The Golden Gate Bridge Vers des concepts plus abstraits tels que Erreurs de programmation ou Fonction d’addition Dans le code informatique, il représente souvent le même concept dans plusieurs langages et modes de communication (par exemple texte, images).
que Octobre 2023 Etude anthropologique Montrez comment ce processus de base peut fonctionner sur de très petits modèles de jouets monocouches. Le nouveau format de papier de la société s’étend considérablement, spécifiant des dizaines de millions de fonctionnalités actives dans son modèle Claude 3.0 Sonnet de milieu de gamme. La carte des caractéristiques résultante – que vous pouvez créer Partiellement exploré– Crée une « carte conceptuelle approximative de [Claude’s] « Les états internes sont à mi-chemin de leur calcul » et présentent « une profondeur, une ampleur et une abstraction qui reflètent les capacités avancées de Sonnet », écrivent les chercheurs. Dans le même temps, les chercheurs préviennent qu’il s’agit d’une « description incomplète des représentations internes du modèle » qui est probablement « en nombre significatif » inférieure à une cartographie complète de Claude 3.
Même à un niveau superficiel, parcourir cette carte des caractéristiques permet de montrer comment Claude associe certains mots-clés, expressions et concepts à quelque chose qui se rapproche de la connaissance. une Fonctionnalité appelée « Capitales » Par exemple, ils ont tendance à être fortement activés lorsqu’ils utilisent l’expression « capitale », mais également des noms de villes spécifiques tels que Riga, Berlin, Azerbaïdjan, Islamabad et Montpellier, Vermont, pour n’en citer que quelques-uns.
L’étude calcule également une mesure mathématique de la « distance » entre différentes caractéristiques en fonction de leur similarité neuronale. Les « quartiers distinctifs » résultant de ce processus « sont souvent organisés en groupes géométriquement liés qui partagent une relation sémantique », écrivent les chercheurs, démontrant que « l’organisation interne des concepts dans le modèle d’IA correspond, au moins dans une certaine mesure, à nos concepts humains. Concepts de similarité. » L’élément du Golden Gate Bridge, par exemple, est relativement « proche » des éléments décrivant « l’île d’Alcatraz, Ghirardelli Square, les Golden State Warriors, le gouverneur de Californie Gavin Newsom, le tremblement de terre de 1906 et un plateau de tournage d’Alfred Hitchcock ». à San Francisco ». vertige« .
L’identification de fonctionnalités spécifiques du LLM peut également aider les chercheurs à cartographier la chaîne d’inférence que le modèle utilise pour répondre à des questions complexes. Par exemple, une invite sur « Capitale de l’État où Kobe Bryant a joué au basket-ball » montre une activité dans une série de fonctionnalités liées à « Kobe Bryant », « Los Angeles Lakers », « Californie », « Capitals » et « Sacramento ». », pour n’en citer que quelques-uns, qui ont été calculés pour avoir le plus grand impact sur les résultats.
More Stories
Apple annonce l’expansion de Vision Pro dans deux pays supplémentaires
Nintendo lance une application musicale avec des thèmes de Mario et Zelda et, plus important encore, une chaîne Wii Shop
C’est le journal que personne n’a lu avant d’annoncer la disparition de la cryptographie moderne.