Anthropic travaille sur l'interprétabilité des réseaux neuronaux depuis longtemps. Leur ancienne méthode SAE (Autoencodeur Éparse) a déjà été adoptée par OpenAI et Google, et maintenant ils proposent une nouvelle façon de "décortiquer" l'IA en pensées - Circuit Tracing.

🟢 Comment cela fonctionne-t-il ?

🍒 Ils prennent un modèle de langage prêt à l'emploi et sélectionnent une tâche.

😘 Remplacez certains composants du modèle par des modèles linéaires simples (Transcodeur Cross-Layer).

😘 Entraînez ces parties remplacées pour imiter le modèle original, en minimisant la différence de sortie.

🍒 Maintenant, vous pouvez voir comment l'information "circule" à travers toutes les couches du modèle.

😘 Sur la base de ces données, un graphique d'attribution est construit - il montre quelles attributs s'influencent mutuellement et forment la réponse finale.

🟢 Quelles choses intéressantes ont été découvertes dans le cerveau de Claude ?

🟠 Le LLM "pense à l'avance." Par exemple, quand elle écrit un poème, elle planifie le schéma de rimes à l'avance, même avant de commencer une nouvelle ligne.

🟠 Les mathématiques ne se résument pas à la mémorisation. Il s'avère que le modèle calcule réellement, au lieu de simplement récupérer des réponses mémorisées.

🟠 Les hallucinations ont une cause. Un déclencheur spécifique "la réponse est connue" est trouvé. S'il est déclenché par erreur - le modèle commence à inventer des choses.

🟠 Fait amusant : si vous dites au modèle la réponse à un problème tout de suite, il pensera à l'envers - il trouvera un chemin plausible vers cette réponse.

  1. #claude #AI