Anthropic долго работали над интерпретируемостью нейронных сетей. Их предыдущий метод SAE (Разреженный Автоэнкодер) уже был принят OpenAI и Google, а теперь они предлагают новый способ "анализировать" ИИ на мысли — Трассировка Цепей.

🟢 Как это работает?

🍒 Они берут готовую языковую модель и выбирают задачу.

😘 Замените некоторые компоненты модели простыми линейными моделями (Кросс-Слойный Транскодер).

😘 Обучите эти замененные части имитировать оригинальную модель, минимизируя разницу в выходных данных.

🍒 Теперь вы можете увидеть, как информация "течет" через все слои модели.

😘 На основе этих данных строится граф атрибуции — он показывает, какие атрибуты влияют друг на друга и формируют окончательный ответ.

🟢 Какие интересные вещи были обнаружены в мозге Клода?

🟠 LLM "думает наперед." Например, когда она пишет стихотворение, она заранее планирует схему рифмовки, еще до того, как начнет новую строку.

🟠 Математика — это не просто запоминание. Оказалось, что модель на самом деле вычисляет, а не просто извлекает запомненные ответы.

🟠 Галлюцинации имеют причину. Обнаружен конкретный триггер "ответ известен". Если он срабатывает по ошибке — модель начинает выдумывать.

🟠 Забавный факт: если вы сразу скажете модели ответ на задачу, она будет думать в обратном порядке — придумает правдоподобный путь к этому ответу.

  1. #claude #AI