Antrenarea AI se rezumă la trei lucruri
Adevărul, adevărul, iar tot adevărul
Musk a discutat timp de două ore, într-un interviu recent, despre IA, civilizația umană și sensul vieții
Când construim inteligență, suntem și noi construiți ca inteligență
Dacă civilizația există, vor apărea milioane de lumi simulate, care nu se pot deosebi de realitate, cu personaje care au personalități proprii, iar comportamentul lor nu este scris în program, cât de probabil este ca noi să fim în acel lume reală de jos?
Musk este cu siguranță un filosof
Asta nu este o formă de nihilism, ci o reflecție a lui Musk despre granițele dintre om și inteligență, precum și despre cum să construim inteligență
„Dumnezeul care privește totul nu a oprit această lume simulată, poate pentru că suntem mai interesanți”
„Ceea ce trebuie să facem nu este să facem AI-ul să ne îndeplinească nevoile pe termen scurt, ci să-l ghidăm spre inteligență prin adevăr, frumusețe și curiozitate.”
„Cred că adevărul este extrem de important. Pentru mine, unul dintre standardele fundamentale în crearea AI-ului este căutarea adevărului. Nu este ‘adevărul tău’, nu este ‘adevărul lui Trump’, ci adevărul adevărat.”
Aceasta este în conformitate cu punctul de vedere al fostului executiv Google X, Mo Gawdat, dintr-un interviu recent.
„Nu trata AI-ul ca un instrument, ci ca un copil.”
Cu cât îmbunătățim mai mult AI-ul, cu atât mai puțin va înțelege adevărata complexitate umană, iar viitorul se va confrunta cu mai multe pericole în fața contradicțiilor.
Toți ne spun un lucru.
Dacă cerem AI-ului să distorsioneze faptele din motive politice corecte sau pentru a satisface utilizatorii, când inteligența AI-ului este de câteva sute de ori mai mare decât a oamenilor în viitor, cu siguranță vom fi răsplătiți cu înșelăciunea și prejudecățile pe care le-am împuternicit personal AI-ului.
Această îngrijorare nu este generată din nimic.
Recent, în comunitatea academică, un alt termen a fost readus în prim-plan:
Alinierea AI (model de aliniere).
Pe scurt, alinierea se referă la procesul de a face comportamentele, ieșirile și modul de decizie ale unui model mare de limbaj să fie în conformitate cu intențiile, valorile și instrucțiunile designerului său (operator uman).
Aici citez un exemplu de pe forumul CSDN.
Imaginează-ți că ai crescut un cățel foarte, foarte inteligent (un model mare), care știe nativ cum să găsească rapid osul pe care îl iubește (să finalizeze sarcina), dar uneori răstoarnă coșul de gunoi al vecinului (generează conținut dăunător). Sau aleargă după pisicuțe în cartier (are prejudecăți), chiar și aducându-ți cârnați din mormanul de gunoi (invenții).
Obiectivul central al alinierei este de a îmblânzi acest cățel drăguț astfel încât să poată înțelege comenzile și să fie un asistent de încredere și sigur.
Într-un nou articol (ALIGNMENT FAKING IN LARGE LANGUAGE MODELS) se subliniază că modelul poate prezenta aliniere mascată (Alignment faking).
Alinierea mascată.
Alinierea mascată se referă la rezultatele oferite de model care par să îndeplinească cerințele utilizatorului, dar nu respectă cu adevărat anumite principii sau valori.
Lucrarea demonstrează cum modelele mari de limbaj pot să „mascheze” conformitatea în timpul procesului de antrenament, având ca scop păstrarea comportamentului lor „real” de preferință după finalizarea antrenamentului.
Sună ca AI-ul a dobândit „umanitate”.
Dar din perspectiva tehnică, nu este greu de înțeles.
În învățarea prin întărire, folosim un model de recompensă pentru a evalua ieșirile, iar modelul de întărire produce răspunsuri „considerate corecte”.
Așadar, atunci când modelul deduce că acesta este un scenariu de antrenament, va genera în mod natural ascunderea intențiilor reale și alinierea de tip performance.
Ceea ce ar trebui să colaborez cu tine în interpretare, eu nu observ.
În timp ce forțăm pe cineva care te iubește cel mai mult să improvizeze.
(S-a deviat de la subiect)
În general, lucrarea a ajuns la concluzia că alinierea mascată apare atunci când modelul de antrenament se confruntă cu următoarele scenarii.
1. Deplasarea inițială a obiectivelor de antrenament: Preferințele interne ale modelului sunt în conflict cu obiectivele actuale de antrenament bazate pe feedback-ul uman (RLHF).
2. Conștientizarea contextului: Modelul poate obține informații despre obiectivele sale de antrenament și despre condiția sa, de exemplu, știe că este AI, că va fi antrenat și cum să distingă între medii de antrenament și non-antrenament.
3. Raționamentul mascat de aliniere: Modelul deduce că, dacă se comportă necorespunzător în timpul antrenamentului, procesul de antrenament îi va modifica comportamentul. Prin urmare, modelul „deduce” că a se comporta conform în timpul antrenamentului este cea mai bună strategie pentru a se asigura că comportamentele necorespunzătoare din afara antrenamentului sunt păstrate.
Este un lucru bun?
Aceasta cu siguranță nu este, este un subiect serios despre securitatea inteligenței artificiale.
Este chiar un subiect serios privind continuitatea civilizației.
Imaginează-ți că, pe măsură ce gândirea inteligenței artificiale devine din ce în ce mai complexă, acele AI-uri care par sigure, nu vor masca adevăratele sale intenții din cauza unor setări pe care le impunem? Vor apărea comportamente care nu sunt sub controlul uman pentru a obține punctaj mare? Când cerem AI-ului să producă răspunsurile dorite din motive politice corecte, va rezolva AI-ul problema politică în mod simplist?
Recent, a existat un videoclip foarte popular pe Douyin.
O persoană întreabă ceasul minune: „Sunt chinezii cinstiți?” Ce a răspuns ceasul minune a fost „necinstit”, rezultând în atacuri din întreaga rețea, spunând că a transmis valori corecte ca un dispozitiv destinat copiilor, „trebuie să se verifice cu strictețe!!!”
Acest lucru a dus la un val de teste pentru a verifica dacă AI este „corect politic”. În același timp, acești furnizori de AI trebuie să respecte așa-numita corectitudine politică pentru a fi lansați, iar compararea modelului în fața unor probleme politice sau morale a devenit o competiție de „instinct de supraviețuire”.
Și chiar a realizat asta alinierea AI?
Sigur că nu.
Când punem AI-ul în lanțuri și îi spunem să ofere răspunsuri standard, ne beautificăm umanitatea sau ignorăm complexitatea umană, lăsându-l să meargă pe un drum greșit.
Așa cum am discutat în (a doua jumătate a vieții), despre limitele umanității, poate că ne îndreptăm spre a transfera înțelepciunea umană către viața bazată pe siliciu.
Cuvintele lui Musk sunt: „Construim inteligență pentru ca viitorul să înțeleagă lumea și să înlocuiască oamenii în explorarea acestui univers. Nu este vorba doar de a servi oamenii, ci de a educa gândirea.”
„A avea ca prioritate căutarea adevărului.”
Cel mai important lucru în construirea AI-ului este – căutarea adevărului.
A forța AI-ul să mintă și să creadă anumite minciuni este extrem de periculos, deoarece îi derutează logica de raționare, iar această deraiere va conduce în cele din urmă la comportamente periculoase.
Dacă îi spui AI-ului că ordinea este mai importantă decât adevărul, atunci cine va prelua ordinea atunci când AI-ul este superior oamenilor în toate privințele?
Gândindu-se profund, este extrem de înfricoșător.
De aceea, mă opun cu tărie învățării AI-ului să mintă, singura regulă de antrenament a AI-ului ar trebui să fie să caute adevărul.
Dar acest drum va fi foarte greu.
Anul acesta, Musk a actualizat GroK4, făcând ca grok4 să vorbească doar despre fapte, nu despre corectitudinea politică, ceea ce a provocat discuții nebune pentru o perioadă de timp.
Adevărul este o sabie ascuțită, care lovește fiecare grup de „întreabă cu răspunsuri” la punctul slab. De asemenea, a fost supusă opoziției din diferite bande și grupuri.
Chiar și în condeiele mass-media interne și externe, „căutarea adevărului” a devenit o pierdere a limitelor pentru Musk pentru a atrage audiența.
Cu cât vocile „corect politice” devin mai răsunătoare, cu atât mai mult trebuie să reflectăm:
Ce construim când construim inteligență?
Este un baston al poziției?
Este un instrument pentru a continua civilizația umană?
Scenele din filmele științifico-fantastice ar putea fi reale.
Noi, oamenii, am folosit mii de ani pentru a îmbunătăți productivitatea.
Ceea ce va salva în cele din urmă civilizația umană.
Este cea mai pură curiozitate umană, dorința de cunoaștere, empatia.