Voici ce qui se passe réellement au sein du réseau neuronal du LLM

Avec la plupart des programmes informatiques, même les plus complexes, vous pouvez retracer le code et utiliser la mémoire avec précision pour le comprendre. Pourquoi Ce programme crée un comportement ou une sortie spécifique. Ce n’est généralement pas le cas dans l’IA générative, où les réseaux neuronaux inexplicables qui sous-tendent ces modèles font qu’il est difficile, même pour les experts, de savoir précisément pourquoi ils combinent souvent des informations, par exemple.

maintenant, Nouvelle recherche d’Anthropic Offre une nouvelle fenêtre sur ce qui se passe à l’intérieur de la « boîte noire » de Claude LLM. Entreprise Nouveau papier Dans « Extraire des caractéristiques interprétables des 3 Sonnets de Claude », il décrit une nouvelle façon puissante d’expliquer au moins partiellement comment des millions de neurones artificiels dans le modèle se déclenchent pour créer des réponses étonnamment réalistes à des requêtes générales.

Ouvrez le capot

Lors de l’analyse du LLM, il est facile de voir quels neurones artificiels spécifiques sont activés en réponse à une requête donnée. Mais un MBA ne stocke pas simplement différents mots ou concepts dans un seul neurone. Au lieu de cela, comme l’expliquent les chercheurs d’Anthropic, « il s’avère que chaque concept est représenté par de nombreux neurones, et que chaque neurone est impliqué dans la représentation de nombreux concepts ».

Pour trier ce chaos de un à plusieurs et de plusieurs à un, commandez Encodeurs automatiques clairsemés Des mathématiques complexes peuvent être utilisées pour opérer Algorithme d’apprentissage du dictionnaire. via le formulaire. Ce processus met en évidence quels groupes de neurones ont tendance à s’activer de manière plus cohérente pour des mots spécifiques qui apparaissent dans différentes invites textuelles.

Même LLM interne — Agrandir / La même « fonctionnalité » interne de LLM décrit le Golden Gate Bridge dans plusieurs langues et modes.

Ces modèles neuronaux multidimensionnels sont ensuite classés en « caractéristiques » associées à des mots ou des concepts particuliers. Ces caractéristiques peuvent inclure des noms propres simples tels que The Golden Gate Bridge Vers des concepts plus abstraits tels que Erreurs de programmation ou Fonction d’addition Dans le code informatique, il représente souvent le même concept dans plusieurs langages et modes de communication (par exemple texte, images).

que Octobre 2023 Etude anthropologique Montrez comment ce processus de base peut fonctionner sur de très petits modèles de jouets monocouches. Le nouveau format de papier de la société s’étend considérablement, spécifiant des dizaines de millions de fonctionnalités actives dans son modèle Claude 3.0 Sonnet de milieu de gamme. La carte des caractéristiques résultante – que vous pouvez créer Partiellement exploré– Crée une « carte conceptuelle approximative de [Claude’s] « Les états internes sont à mi-chemin de leur calcul » et présentent « une profondeur, une ampleur et une abstraction qui reflètent les capacités avancées de Sonnet », écrivent les chercheurs. Dans le même temps, les chercheurs préviennent qu’il s’agit d’une « description incomplète des représentations internes du modèle » qui est probablement « en nombre significatif » inférieure à une cartographie complète de Claude 3.

Une carte simplifiée expliquant certains des concepts qui "fermer" le "Conflit interne" L'avantage du modèle anthropique de Claude. — Agrandir / Une carte simplifiée illustrant quelques concepts « proches » de la caractéristique « conflit interne » du modèle anthropique de Claude.

Même à un niveau superficiel, parcourir cette carte des caractéristiques permet de montrer comment Claude associe certains mots-clés, expressions et concepts à quelque chose qui se rapproche de la connaissance. une Fonctionnalité appelée « Capitales » Par exemple, ils ont tendance à être fortement activés lorsqu’ils utilisent l’expression « capitale », mais également des noms de villes spécifiques tels que Riga, Berlin, Azerbaïdjan, Islamabad et Montpellier, Vermont, pour n’en citer que quelques-uns.

L’étude calcule également une mesure mathématique de la « distance » entre différentes caractéristiques en fonction de leur similarité neuronale. Les « quartiers distinctifs » résultant de ce processus « sont souvent organisés en groupes géométriquement liés qui partagent une relation sémantique », écrivent les chercheurs, démontrant que « l’organisation interne des concepts dans le modèle d’IA correspond, au moins dans une certaine mesure, à nos concepts humains. Concepts de similarité. » L’élément du Golden Gate Bridge, par exemple, est relativement « proche » des éléments décrivant « l’île d’Alcatraz, Ghirardelli Square, les Golden State Warriors, le gouverneur de Californie Gavin Newsom, le tremblement de terre de 1906 et un plateau de tournage d’Alfred Hitchcock ». à San Francisco ». vertige« .

Certaines des caractéristiques les plus importantes incluses dans la réponse à une enquête sur la capitale de l'État de l'équipe de Kobe Bryant. — Agrandir / Certaines des caractéristiques les plus importantes incluses dans la réponse à une enquête sur la capitale de l’État de l’équipe de Kobe Bryant.

L’identification de fonctionnalités spécifiques du LLM peut également aider les chercheurs à cartographier la chaîne d’inférence que le modèle utilise pour répondre à des questions complexes. Par exemple, une invite sur « Capitale de l’État où Kobe Bryant a joué au basket-ball » montre une activité dans une série de fonctionnalités liées à « Kobe Bryant », « Los Angeles Lakers », « Californie », « Capitals » et « Sacramento ». », pour n’en citer que quelques-uns, qui ont été calculés pour avoir le plus grand impact sur les résultats.

Voici ce qui se passe réellement au sein du réseau neuronal du LLM

Ouvrez le capot

Les principaux sites Web refusent d’utiliser la technologie d’intelligence artificielle d’Apple

Les joueurs se plaignent de la longue recherche de joueurs sur PS5 alors que le nombre de joueurs diminue

La société d’intelligence artificielle Midjourney présente un produit matériel sous une nouvelle forme

Pourquoi la France interdit aux athlètes olympiques de porter le hijab

Federico Chiesa achève son transfert à Liverpool depuis la Juventus

Compenser le sommeil le week-end pourrait réduire d’un cinquième le risque de maladie cardiaque – étude | Maladie cardiaque

Les principaux sites Web refusent d’utiliser la technologie d’intelligence artificielle d’Apple

Ouvrez le capot

Laisser un commentaire Annuler la réponse

More Stories

Les principaux sites Web refusent d’utiliser la technologie d’intelligence artificielle d’Apple

Les joueurs se plaignent de la longue recherche de joueurs sur PS5 alors que le nombre de joueurs diminue

La société d’intelligence artificielle Midjourney présente un produit matériel sous une nouvelle forme

You may have missed

Pourquoi la France interdit aux athlètes olympiques de porter le hijab

Federico Chiesa achève son transfert à Liverpool depuis la Juventus

Compenser le sommeil le week-end pourrait réduire d’un cinquième le risque de maladie cardiaque – étude | Maladie cardiaque

Les principaux sites Web refusent d’utiliser la technologie d’intelligence artificielle d’Apple