Anthropic a lucrat de mult timp la interpretabilitatea rețelelor neuronale. Metoda lor anterioară SAE (Sparse Autoencoder) a fost deja adoptată de OpenAI și Google, iar acum oferă o nouă modalitate de a "analiza" AI în gânduri - Circuit Tracing.
🟢 Cum funcționează?
🍒 Ei iau un model de limbaj standard și selectează o sarcină.
😘 Înlocuiește unele componente ale modelului cu modele liniare simple (Transcoder încrucișat).
😘 Antrenează aceste părți înlocuite pentru a imita modelul original, minimizând diferența în ieșire.
🍒 Acum poți vedea cum informația „curge” prin toate straturile modelului.
😘 Pe baza acestor date, se construiește un graf de atribuire – acesta arată care atribuții se influențează reciproc și formează răspunsul final.
🟢 Ce lucruri interesante au fost descoperite în creierul lui Claude?
🟠 LLM „gândește înainte”. De exemplu, când scrie un poem, planifică schema de rime în avans, chiar înainte de a începe o nouă linie.
🟠 Matematica nu este doar despre memorare. Se pare că modelul calculează efectiv, nu doar preia răspunsuri memorate.
🟠 Halucinațiile au o cauză. A fost identificat un anumit declanșator „răspunsul este cunoscut”. Dacă este declanșat greșit – modelul începe să inventeze lucruri.
🟠 Informație interesantă: dacă îi spui modelului răspunsul la o problemă imediat, acesta va gândi invers – va veni cu un drum plauzibil către acel răspuns.