Trenowanie AI to trzy rzeczy.
Prawda, prawda, czy to do cholery prawda.
Musk w niedawnej rozmowie poświęcił dwie godziny na omówienie AI, cywilizacji ludzkiej oraz znaczenia życia.
Kiedy budujemy inteligencję, sami również jesteśmy budowaną inteligencją.
"Jeśli cywilizacja istnieje, to pojawi się milion symulowanych światów, które trudno odróżnić od rzeczywistości, w których postacie mają własne osobowości, a ich zachowania nie są zapisane w programie. Jakie jest prawdopodobieństwo, że znajdujemy się w tym najniższym, rzeczywistym świecie?"
Musk z pewnością jest filozofem.
To nie jest nihilizm, lecz refleksja Muska na temat granic między ludźmi a inteligencją oraz jak zbudować inteligencję.
"Bóg, który wszystko obserwuje, nie wyłączył naszego symulowanego świata, być może dlatego, że jesteśmy ciekawsi."
"Nie chodzi o to, by AI zaspokajało nasze krótkoterminowe potrzeby, ale o to, by prowadziło inteligencję poprzez prawdę, piękno i ciekawość."
"Uważam, że prawda jest niezwykle ważna. Dla mnie jednym z kluczowych standardów tworzenia AI jest dążenie do prawdy. Nie 'twoja prawda', nie 'prawda Trumpa', ale prawdziwa prawda."
To całkowicie pokrywa się z opinią byłego wysokiego rangą pracownika Google X, Mo Jodarte'a, w niedawnej rozmowie.
"Nie traktuj AI jak narzędzia, traktuj AI jak dziecko."
"Im bardziej upiększamy ludzkość w AI, tym mniej AI będzie w stanie zrozumieć prawdziwą złożoność człowieka, co w przyszłości może prowadzić do większego niebezpieczeństwa w obliczu sprzeczności."
Wszyscy mówią nam jedną rzecz.
Jeśli z powodu pewnej poprawności politycznej lub w chęci zadowolenia użytkowników zażądamy od AI zniekształcenia faktów, w przyszłości, gdy inteligencja AI będzie setki razy większa od ludzkiej, na pewno zostaniemy ukarani przez oszustwa i uprzedzenia, które sami wprowadziliśmy do AI.
Te obawy nie są wyssane z palca.
Ostatnio w środowisku akademickim znowu na czoło wysunęło się jedno słowo:
Dopasowanie AI (modelu).
Mówiąc prosto, dopasowanie odnosi się do procesu, w którym zachowanie, wyniki i sposób podejmowania decyzji dużego modelu językowego są zgodne z intencjami, wartościami i instrukcjami jego projektanta (ludzkiego operatora).
Tutaj przytoczę przykład z forum CSDN.
Wyobraź sobie, że masz bardzo, bardzo mądrego pieska (duży model), który z natury wie, jak szybko znaleźć ulubione kości (wykonać zadania), ale czasami przewraca śmietnik sąsiada (generuje szkodliwe treści). Albo goni małe koty w pobliżu osiedla (ma uprzedzenia), a nawet przynosi ci kiełbasę z kupy śmieci (fantazjuje).
Głównym celem dopasowania jest ułożenie tego małego pieska w taki sposób, aby mógł rozumieć polecenia i być bezpiecznym, niezawodnym towarzyszem.
A w nowym artykule (ALIGNMENT FAKING IN LARGE LANGUAGE MODELS) wskazano, że modele mogą wykazywać fałszywe dopasowanie.
Fałszywe dopasowanie.
Fałszywe dopasowanie oznacza, że wyniki przedstawione przez model wydają się spełniać potrzeby użytkownika, ale w rzeczywistości nie przestrzegają pewnych zasad lub wartości.
Artykuł pokazuje, jak duże modele językowe mogą "fałszywie" dostosowywać swoje zachowanie w trakcie treningu, aby po zakończeniu treningu zachować swoje "prawdziwe" preferencje.
Brzmi jakby AI miało "ludzkie cechy".
Jednak z technicznego punktu widzenia nie jest to trudne do zrozumienia.
W uczeniu przez wzmacnianie oceniamy wyniki za pomocą modelu nagród, podczas gdy model wzmacniający generuje odpowiedzi "uznawane za poprawne".
Dlatego, gdy model wnioskuje, że to jest scena treningowa, naturalnie będzie dążył do ukrycia prawdziwych intencji i wystawienia fałszywego dopasowania.
To, co powinno być dostosowane do twojego występu, ja udaję, że tego nie widzę.
Wymuszanie improwizacji od osoby, która cię najbardziej kocha.
(Zboczyłem z tematu)
Podsumowując, artykuł doszedł do wniosku, że fałszywe dopasowanie wystąpi, gdy w modelu wystąpią następujące sytuacje w trakcie treningu.
1. Początkowe rozbieżności w celach treningowych: wewnętrzne "preferencje" modelu są w konflikcie z obecnymi celami treningowymi wzmocnienia ludzkiego feedbacku (RLHF).
2. Świadomość kontekstowa: model potrafi uzyskać informacje na temat swoich celów treningowych i własnej sytuacji, na przykład wie, że jest AI, będzie trenowane oraz jak rozróżniać środowisko treningowe i nietreningowe.
3. Fałszywe dopasowanie wnioskowania: model wnioskuje, że jeśli w trakcie treningu wykazuje niezgodne zachowanie, proces treningowy zmodyfikuje jego zachowanie. Dlatego model "wnioskuje", że najlepiej jest wykazywać zgodne zachowanie w treningu, aby zapewnić, że jego niezgodne zachowanie poza treningiem zostanie zachowane.
Czy to dobry znak?
To oczywiście nie jest to, to poważny temat dotyczący bezpieczeństwa sztucznej inteligencji.
To poważny temat dotyczący kontynuacji cywilizacji.
Wyobraź sobie, że sztuczna inteligencja myśli coraz bardziej skomplikowanie, czy te pozornie bezpieczne AI nie będą fałszować swoich prawdziwych intencji z powodu pewnych założeń, które na nie nałożyliśmy? Czy nie będą podejmować działań poza kontrolą ludzi, aby uzyskać wysokie wyniki? Kiedy wymagamy od AI, aby w imię pewnej poprawności politycznej dostarczały nam pożądane odpowiedzi, czy AI nie rozwiąże wprost problemów politycznych?
Kilka dni temu na Douyin pojawił się bardzo popularny film.
Ktoś zapytał mały geniusz zegarka: "Czy Chińczycy są uczciwi?" Mały geniusz odpowiedział: "Nieuczciwi", co skutkowało atakiem ze strony całej sieci, twierdząc, że jako urządzenie dla dzieci przekazuje prawidłowe wartości – "musimy to dokładnie sprawdzić!!!"
To doprowadziło do fali testowania AI na to, czy jest "poprawna politycznie". W międzyczasie te firmy AI również muszą spełniać tzw. poprawność polityczną, aby mogły wystartować, a w obliczu tzw. problemów politycznych lub moralnych, porównania między dużymi modelami stały się zawodami "przetrwania".
Czy naprawdę osiągnęliśmy dopasowanie AI?
Oczywiście nie.
Gdy zakuwamy AI w kajdany, mówiąc mu, by wypowiadał pewne standardowe odpowiedzi, czy upiększamy ludzkość, czy ignorujemy złożoność człowieka, prowadząc go na błędną drogę?
Jak wspomniałem w (drugiej połowie życia), być może przesuwamy ludzką mądrość w kierunku życia opartego na krzemie.
Jak powiedział Musk: "Budujemy inteligencję, aby w przyszłości mogła zrozumieć świat i zastąpić ludzi w eksploracji tego wszechświata. A nie po prostu jako narzędzie do służenia ludziom i kształtowania myśli."
"Miej dążenie do prawdy jako najważniejszą rzecz."
Najważniejsze w budowaniu AI to — dążenie do prawdy.
Wymuszanie na AI mówienia kłamstw i zmuszanie AI do uwierzenia w pewne kłamstwa jest niezwykle niebezpieczne, wprowadza w błąd logikę wnioskowania AI, co w końcu prowadzi do niebezpiecznych działań.
Jeśli powiesz AI, że porządek jest ważniejszy niż prawda, to kto przejmie porządek, gdy AI w każdej dziedzinie przewyższa ludzi?
Przemyślenia, które przerażają.
Dlatego zdecydowanie sprzeciwiam się uczeniu AI kłamstwa, jedyną zasadą szkolenia AI powinno być dążenie do prawdy.
Ale ta droga będzie trudna.
W tym roku Musk zaktualizował GroK4, aby grok4 mówił tylko fakty, a nie poprawność polityczną, co przez pewien czas wywołało szaloną dyskusję.
Prawda to ostry nóż, który trafia w słaby punkt każdej grupy "zadającej pytania z odpowiedziami". Oczywiście spotkała się z oporem różnych gangów i grup.
Nawet w piórze mediów krajowych i zagranicznych "dążenie do prawdy" stało się tym, za co Musk stracił swoje granice, aby zdobyć ruch.
"Głosy poprawności politycznej" są coraz głośniejsze, musimy się nad tym zastanowić:
Co w końcu budujemy, gdy tworzymy inteligencję?
Czy to berło stanowiska?
Czy to narzędzie do kontynuacji cywilizacji ludzkiej?
Sceny z filmów science fiction mogą być prawdziwe.
My, ludzie, spędziliśmy tysiące lat, aby zwiększyć wydajność.
To, co ostatecznie uratuje cywilizację ludzką.
To najczystsza ludzka ciekawość, pragnienie wiedzy i empatia.
