Anthropic долго работали над интерпретируемостью нейронных сетей. Их предыдущий метод SAE (Разреженный Автоэнкодер) уже был принят OpenAI и Google, а теперь они предлагают новый способ "анализировать" ИИ на мысли — Трассировка Цепей.
🟢 Как это работает?
🍒 Они берут готовую языковую модель и выбирают задачу.
😘 Замените некоторые компоненты модели простыми линейными моделями (Кросс-Слойный Транскодер).
😘 Обучите эти замененные части имитировать оригинальную модель, минимизируя разницу в выходных данных.
🍒 Теперь вы можете увидеть, как информация "течет" через все слои модели.
😘 На основе этих данных строится граф атрибуции — он показывает, какие атрибуты влияют друг на друга и формируют окончательный ответ.
🟢 Какие интересные вещи были обнаружены в мозге Клода?
🟠 LLM "думает наперед." Например, когда она пишет стихотворение, она заранее планирует схему рифмовки, еще до того, как начнет новую строку.
🟠 Математика — это не просто запоминание. Оказалось, что модель на самом деле вычисляет, а не просто извлекает запомненные ответы.
🟠 Галлюцинации имеют причину. Обнаружен конкретный триггер "ответ известен". Если он срабатывает по ошибке — модель начинает выдумывать.
🟠 Забавный факт: если вы сразу скажете модели ответ на задачу, она будет думать в обратном порядке — придумает правдоподобный путь к этому ответу.