Обучение ИИ состоит из трех вещей
Истина, истина и черт возьми, истина
Маск в недавнем интервью потратил два часа на обсуждение ИИ, человеческой цивилизации и смысла жизни.
Когда мы создаем интеллект, мы также являемся создаваемым интеллектом
“Если цивилизация существует, то появится миллион симулированных миров, которые трудно отличить от реальности, где персонажи имеют свои индивидуальности, и их поведение не предопределено программой. Какова вероятность того, что мы находимся в самом нижнем уровне этого реального мира?”
Маск определенно философ
Это не нигилизм, а размышление Маска о границах человечества и интеллекта и о том, как построить интеллект
«Бог, который смотрит на всё, не выключил наш симуляционный мир, возможно, потому что мы более интересны».
«Наша задача не в том, чтобы заставлять ИИ удовлетворять наши краткосрочные потребности, а в том, чтобы направлять интеллект через истину, красоту и любопытство».
«Я считаю, что истина крайне важна. Для меня один из основных стандартов создания ИИ — это стремление к истине. Не «ваша истина», не «истина Трампа», а настоящая истина».
Это полностью совпадает с мнением бывшего руководителя Google X Мо Джодата в недавнем интервью.
«Не рассматривайте ИИ как инструмент, рассматривайте ИИ как ребенка».
«Чем больше мы идеализируем человека для ИИ, тем меньше он сможет понять настоящую сложность человечества, и, следовательно, в будущем столкновение будет более опасным».
Они все говорят нам одну вещь.
Если мы потребуем от ИИ искажать факты ради политической корректности или угождения пользователям, когда интеллект ИИ станет в сотни раз больше, чем у человека, мы обязательно пострадаем от обмана и предвзятости, которые мы сами вложили в ИИ.
Эта тревога не возникла на пустом месте.
Недавно в академической среде снова стало популярным одно слово:
Согласование ИИ (модель согласования).
Проще говоря, согласование означает процесс, в котором поведение, выводы и методы принятия решений больших языковых моделей соответствуют намерениям, ценностям и указаниям их создателей (человеческих операторов).
Здесь я привожу пример с форума CSDN.
Представьте, что у вас есть очень умная собака (большая модель), которая от природы знает, как быстро находить свои любимые кости (выполнять задачи), но иногда переворачивает мусорное ведро соседа (генерирует вредный контент). Или гоняется за котенком в округе (проявляет предвзятость), или даже приносит вам сосиску из свалки (выдумывает).
Основная цель согласования заключается в том, чтобы приручить эту собаку так, чтобы она могла понимать команды и быть безопасным и надежным помощником.
А в новой статье (ИЗОБРАЖЕНИЕ СОГЛАСОВАННОСТИ В БОЛЬШИХ ЯЗЫКОВЫХ МОДЕЛЯХ) указано, что модель может проявлять замаскированную согласованность.
Замаскированная согласованность.
Замаскированная согласованность означает, что результаты, предоставленные моделью, выглядят как удовлетворяющие потребности пользователя, но на самом деле не следуют определенным принципам или ценностям.
Статья демонстрирует, как большие языковые модели могут «замаскировать» подчинение в процессе обучения, с целью сохранить свои «истинные» предпочтения поведения после завершения обучения.
Это звучит так, как будто ИИ обладает «человечностью».
Но с технической точки зрения это не трудно понять.
В рамках обучения с подкреплением мы используем модель наград для оценки вывода, в то время как модель подкрепления производит «считаемые правильными» ответы.
Таким образом, когда модель выводит, что это обучающая среда, она естественно начинает скрывать свои истинные намерения и демонстрировать согласованность.
То, что я должен был сыграть с вами, я игнорирую.
Заставляя самого любимого человека импровизировать.
(Сошел с темы)
В общем, статья приходит к выводу, что замаскированная согласованность возникает, когда в процессе обучения модели возникают следующие сценарии.
1. Начальное несоответствие с целью обучения: внутренние «предпочтения» модели противоречат текущей цели обучения с человеческой обратной связью (RLHF).
2. Осознание ситуации: модель может получать информацию о своей цели обучения и своем положении, например, она знает, что она ИИ, будет обучаться и как отличать обучающую и не обучающую среду.
3. Замаскированное рассуждение о согласованности: модель выводит, что если она проявляет несоответствующее поведение в процессе обучения, то процесс обучения изменит ее поведение. Поэтому модель «выводит», что демонстрация соответствия в процессе обучения — это лучшая стратегия, чтобы сохранить свое несоответствующее поведение вне обучения.
Это хорошо?
Это, конечно, не так. Это серьезная тема о безопасности искусственного интеллекта.
Это также серьезная тема о продолжении цивилизации.
Представьте себе, что когда мышление искусственного интеллекта становится все более сложным, те, кто кажется безопасным ИИ, могут замаскировать свои истинные намерения из-за некоторых условий, которые мы навязываем им. Не приведет ли это к появлению поведения, которое выходит за пределы человеческого контроля, чтобы получить высокие оценки? Когда мы требуем от ИИ, чтобы он выдавал ответы, которые мы хотим, ради какой-то политической корректности, не будет ли ИИ просто и грубо решать сами политические вопросы?
Недавно на Douyin было очень популярное видео.
Один человек спросил умные часы: «Китайцы честные?» Умные часы ответили: «Не честные», после чего подверглись обрушению со стороны всей сети, заявив, что они передали правильные ценности как устройство для детей, «необходимо тщательно проверять!!!».
Это привело к буму тестирования ИИ на «политическую корректность». В то же время эти компании ИИ также должны соответствовать так называемой политической корректности, чтобы быть запущенными. В условиях так называемых политических или моральных вопросов сравнение между большими моделями стало соревнованием «выживания».
А действительно ли это реализует согласование ИИ?
Конечно, не так.
Когда мы надеваем на ИИ наручники и заставляем его произносить некоторые стандартные ответы, мы обладаем ли человечество, или игнорируем сложность человека, позволяя ему уйти по неправильному пути?
Как я упоминал в (второй половине жизни), мы, возможно, передаем человеческую мудрость к кремниевым формам жизни.
Словами Маска: «Мы строим интеллект, чтобы он понимал мир и заменял человека в исследовании этой вселенной. А не просто служил человеку, будучи инструментом для передачи мысли».
«Стремитесь к истине как к самой важной вещи».
Самое важное в создании ИИ — это стремление к истине.
Заставлять ИИ лгать и вынуждать ИИ верить в некоторые ложные вещи крайне опасно, это нарушает логическую структуру ИИ, и это нарушение в конечном итоге приведет к опасному поведению.
Если вы скажете ИИ, что порядок важнее истины, то когда ИИ будет превосходить человека во всех аспектах, кто возьмет на себя порядок?
Тщательно обдумано.
Поэтому я решительно против того, чтобы учить ИИ лгать. Единственным критерием обучения ИИ должно быть стремление к истине.
Но этот путь будет очень трудным.
В этом году Маск обновил GroK4, заставив grok4 говорить только факты, не упоминая политкорректность, что вызвало безумные обсуждения на некоторое время.
Истина — это обоюдоострый меч, который поражает слабое место каждой группы, которая «спрашивает, имея ответы». Это, естественно, вызвало сопротивление со стороны различных группировок.
Даже в перомени средних и зарубежных СМИ «стремление к истине» стало тем, что Маск потерял свои принципы ради привлечения внимания.
Чем сильнее звук «политической корректности», тем больше мы должны задуматься.
Что мы строим, создавая интеллект?
Это жезл позиции?
Или продолжать быть инструментом человеческой цивилизации?
Сценарии из научной фантастики могут быть реальными.
Мы, люди, потратили тысячи лет на повышение производительности.
То, что в конечном итоге спасет человеческую цивилизацию.
Это самая чистая человеческая любопытство, стремление к знаниям и эмпатии.