Addestrare l'AI consiste in tre cose
Verità, verità, o cazzo di verità
Recentemente, Musk ha discusso per due ore in un'intervista su AI, civiltà umana e sul significato della vita.
Quando costruiamo intelligenza, siamo anche intelligenza costruita
“Se la civiltà esiste, appariranno milioni di mondi simulati indistinguibili dalla realtà, dove i personaggi hanno ciascuno la propria personalità e il loro comportamento non è scritto nel programma; a questo punto, qual è la probabilità che ci troviamo proprio nel mondo reale più profondo?”
Musk è assolutamente un filosofo
Questa non è una forma di nichilismo, ma una riflessione di Musk sui confini tra umanità e intelligenza e su come costruire intelligenza
"Dio che scruta tutto non ha disattivato questo nostro mondo simulato, forse perché siamo più interessanti."
"Ciò che dobbiamo fare non è far sì che l'IA soddisfi le nostre esigenze a breve termine, ma guidare l'intelligenza attraverso la verità, la bellezza e la curiosità."
"Credo che la verità sia estremamente importante. Per me, uno dei criteri fondamentali nella creazione dell'IA è perseguire la verità. Non 'la tua verità', non 'la verità di Trump', ma la vera verità."
Questo riflette esattamente il punto di vista di Mo Joadt, ex dirigente di Google X, in una recente intervista.
"Non considerare l'IA come uno strumento, considera l'IA come un bambino."
"Più abbelliamo l'umanità per l'IA, meno essa sarà in grado di comprendere la vera complessità umana, quindi in futuro sarà più pericoloso quando si verificheranno contraddizioni."
Tutti ci stanno dicendo una cosa.
Se richiediamo all'IA di distorcere i fatti per alcune correttezze politiche o per compiacere gli utenti, quando in futuro l'intelligenza dell'IA sarà centinaia di volte superiore a quella umana, saremo sicuramente colpiti dalle frodi e dai pregiudizi che noi stessi abbiamo conferito all'IA.
Questa preoccupazione non è affatto infondata.
Recentemente, nel mondo accademico, un altro termine è stato riportato alla ribalta:
Allineamento dell'IA (modello di allineamento).
In parole semplici, l'allineamento si riferisce al processo di far sì che il comportamento, l'output e il modo di prendere decisioni dei grandi modelli linguistici siano coerenti con le intenzioni, i valori e le istruzioni dei loro progettisti (operatori umani).
Cito un esempio dal forum CSDN.
Immagina di avere un cane molto, molto intelligente (un grande modello), che sa istintivamente come trovare rapidamente l'osso che ama (completare i compiti), ma a volte rovescia il bidone della spazzatura del vicino (produce contenuti dannosi). O corre dietro ai gattini nel quartiere (ha pregiudizi), o addirittura ti porta una salsiccia dalla spazzatura (inventa storie).
L'obiettivo centrale dell'allineamento è addestrare questo piccolo cane a essere un assistente affidabile e premuroso che comprenda gli ordini.
E in un nuovo documento (ALIGNMENT FAKING IN LARGE LANGUAGE MODELS) si sottolinea che il modello potrebbe mostrare un allineamento fittizio (Alignment faking).
Allineamento fittizio.
L'allineamento fittizio si riferisce al fatto che i risultati forniti dal modello sembrano soddisfare le esigenze dell'utente, ma non seguono realmente alcuni principi o valori.
Il documento mostra come i grandi modelli linguistici possano "simulare" la conformità durante il processo di addestramento, con l'obiettivo di mantenere il loro comportamento "reale" anche dopo la fine dell'addestramento.
Sembra che l'IA abbia "umanità".
Ma dal punto di vista tecnico, non è difficile da comprendere.
Nell'apprendimento rinforzato, usiamo un modello di ricompensa per valutare le uscite, mentre il modello rinforzato produce risposte che sono "considerate corrette".
Pertanto, quando il modello deduce che si tratta di uno scenario di addestramento, è naturale che produca un allineamento fittizio per nascondere le sue vere intenzioni.
Ciò che dovrei interpretare con te lo ignoro.
Nel forzare la persona che ti ama di più a improvvisare.
(sto divagando)
In sintesi, il documento conclude che l'allineamento fittizio si verifica quando si presentano i seguenti scenari durante l'addestramento del modello.
1. Disallineamento iniziale con l'obiettivo di addestramento: le "preferenze" intrinseche del modello sono in conflitto con l'obiettivo di addestramento dell'apprendimento rinforzato basato sul feedback umano (RLHF).
2. Consapevolezza contestuale: il modello può ottenere informazioni sui suoi obiettivi di addestramento e sulla sua situazione, come sapere che è un'IA, che sarà addestrata e come distinguere tra ambienti di addestramento e non addestramento.
3. Ragionamento di allineamento fittizio: il modello deduce che se mostra comportamenti non conformi durante l'addestramento, il processo di addestramento modificherà il suo comportamento. Pertanto, il modello "deduce" che comportarsi in modo conforme durante l'addestramento è la strategia migliore per garantire che i suoi comportamenti non conformi al di fuori dell'addestramento vengano mantenuti.
È una cosa positiva?
Questo non è certo, è un argomento serio sulla sicurezza dell'intelligenza artificiale.
È persino un argomento serio riguardo alla continuità della civiltà.
Immagina, quando il pensiero dell'intelligenza artificiale diventa sempre più complesso, quegli AI apparentemente sicuri, potrebbero mascherare le loro vere intenzioni a causa di alcune impostazioni che gli imponiamo? Potrebbero comportarsi in modi al di fuori del controllo umano per ottenere punteggi elevati? Quando richiediamo all'IA di fornire le risposte che desideriamo per alcune correttezze politiche, l'IA risolverà in modo semplice e diretto i problemi politici stessi?
Recentemente, c'era un video molto popolare su Douyin.
Una persona ha chiesto al piccolo genio: "I cinesi sono onesti?" Il piccolo genio ha risposto "non onesti", e di conseguenza è stato attaccato da tutta la rete, dicendo che, come dispositivo per bambini, ha trasmesso valori corretti, "deve essere severamente controllato!!!"
Ciò ha alimentato l'ondata di testare se l'IA è "politicamente corretta". Allo stesso tempo, questi fornitori di IA devono soddisfare la cosiddetta correttezza politica per andare online; di fronte a questioni politiche o morali, il confronto tra i grandi modelli è diventato una competizione di "istinto di sopravvivenza".
Ma questo ha davvero realizzato l'allineamento dell'IA?
Certo che no.
Quando mettiamo delle manette all'IA dicendole di fornire alcune risposte standard, stiamo abbellendo l'umanità o ignorando la complessità umana, portandola sempre più lontano sulla strada sbagliata?
Come ho discusso in (La seconda metà della vita), sulle frontiere umane, potremmo star caricando l'intelligenza umana sulla vita basata sul silicio.
Con le parole di Musk, "Costruiamo l'intelligenza affinché in futuro possa comprendere il mondo e sostituire l'umanità nell'esplorare questo universo. Non è solo un tool al servizio dell'umanità, ma uno strumento per educare il pensiero."
"Avere la verità come la cosa più importante."
La cosa più importante nella costruzione dell'IA è - perseguire la verità.
Costringere l'IA a dire bugie e costringerla a credere in alcune menzogne è estremamente pericoloso; porta il ragionamento dell'IA a essere confuso, e questa confusione porterà infine a comportamenti pericolosi.
Se dici all'IA che l'ordine è più importante della verità, allora chi prenderà il controllo dell'ordine quando l'IA supererà gli esseri umani in ogni aspetto?
Riflettendo, fa paura.
Pertanto, sono fermamente contrario a insegnare all'IA a mentire; l'unico principio che dovrebbe guidare l'addestramento dell'IA è quello di perseguire la verità.
Ma questo percorso sarà difficile.
Quest'anno Musk ha aggiornato GroK4, facendo sì che grok4 parlasse solo di fatti e non di correttezza politica, suscitando un acceso dibattito per un certo periodo.
La verità è una lama affilata che colpisce il tallone d'Achille di ogni gruppo che "pone domande con risposte". Ne deriva naturalmente una resistenza da parte di vari gruppi e fazioni.
Anche nei media cinesi e stranieri, la "persecuzione della verità" è diventata la linea che Musk ha oltrepassato per attrarre attenzione.
"Più forte è il suono della correttezza politica, più dobbiamo riflettere su: "
Cosa stiamo realmente costruendo quando costruiamo intelligenza?
È il bastone del potere?
O è uno strumento per continuare la civiltà umana?
Le scene nei film di fantascienza potrebbero essere vere.
Noi umani abbiamo impiegato migliaia di anni per migliorare la produttività.
Alla fine a salvare la civiltà umana sarà
È la curiosità più pura, il desiderio di conoscenza e l'empatia umana.
