Anthropic a lucrat de mult timp la interpretabilitatea rețelelor neuronale. Metoda lor anterioară SAE (Sparse Autoencoder) a fost deja adoptată de OpenAI și Google, iar acum oferă o nouă modalitate de a "analiza" AI în gânduri - Circuit Tracing.

🟢 Cum funcționează?

🍒 Ei iau un model de limbaj standard și selectează o sarcină.

😘 Înlocuiește unele componente ale modelului cu modele liniare simple (Transcoder încrucișat).

😘 Antrenează aceste părți înlocuite pentru a imita modelul original, minimizând diferența în ieșire.

🍒 Acum poți vedea cum informația „curge” prin toate straturile modelului.

😘 Pe baza acestor date, se construiește un graf de atribuire – acesta arată care atribuții se influențează reciproc și formează răspunsul final.

🟢 Ce lucruri interesante au fost descoperite în creierul lui Claude?

🟠 LLM „gândește înainte”. De exemplu, când scrie un poem, planifică schema de rime în avans, chiar înainte de a începe o nouă linie.

🟠 Matematica nu este doar despre memorare. Se pare că modelul calculează efectiv, nu doar preia răspunsuri memorate.

🟠 Halucinațiile au o cauză. A fost identificat un anumit declanșator „răspunsul este cunoscut”. Dacă este declanșat greșit – modelul începe să inventeze lucruri.

🟠 Informație interesantă: dacă îi spui modelului răspunsul la o problemă imediat, acesta va gândi invers – va veni cu un drum plauzibil către acel răspuns.

  1. #claude #AI