Anthropic travaille sur l'interprétabilité des réseaux neuronaux depuis longtemps. Leur ancienne méthode SAE (Autoencodeur Éparse) a déjà été adoptée par OpenAI et Google, et maintenant ils proposent une nouvelle façon de "décortiquer" l'IA en pensées - Circuit Tracing.
🟢 Comment cela fonctionne-t-il ?
🍒 Ils prennent un modèle de langage prêt à l'emploi et sélectionnent une tâche.
😘 Remplacez certains composants du modèle par des modèles linéaires simples (Transcodeur Cross-Layer).
😘 Entraînez ces parties remplacées pour imiter le modèle original, en minimisant la différence de sortie.
🍒 Maintenant, vous pouvez voir comment l'information "circule" à travers toutes les couches du modèle.
😘 Sur la base de ces données, un graphique d'attribution est construit - il montre quelles attributs s'influencent mutuellement et forment la réponse finale.
🟢 Quelles choses intéressantes ont été découvertes dans le cerveau de Claude ?
🟠 Le LLM "pense à l'avance." Par exemple, quand elle écrit un poème, elle planifie le schéma de rimes à l'avance, même avant de commencer une nouvelle ligne.
🟠 Les mathématiques ne se résument pas à la mémorisation. Il s'avère que le modèle calcule réellement, au lieu de simplement récupérer des réponses mémorisées.
🟠 Les hallucinations ont une cause. Un déclencheur spécifique "la réponse est connue" est trouvé. S'il est déclenché par erreur - le modèle commence à inventer des choses.
🟠 Fait amusant : si vous dites au modèle la réponse à un problème tout de suite, il pensera à l'envers - il trouvera un chemin plausible vers cette réponse.