Como um sistema de AGI de nível humano pode se aprimorar por si mesmo mantendo-se alinhado com os valores humanos e preservando seus objetivos principais?

Criar uma AGI capaz representa tanto uma grande conquista na pesquisa de IA de longo prazo quanto um ponto de partida para o desenvolvimento futuro. Um aspecto fundamental desse desafio é construir um sistema que possa se aprimorar sem comprometer seu propósito ou valores originais.

Embora essa ideia possa parecer inicialmente ambiciosa ou especulativa, é uma necessidade prática. Para ser verdadeiramente valiosa, uma AGI precisará ter a capacidade de atualizar suas habilidades, refinar seus algoritmos e escalar seu processamento cognitivo.

Diferentemente dos sistemas de software tradicionais, que dependem de desenvolvedores externos para atualizações, um sistema de AGI verdadeiro deve executar auto-modificações que protejam suas propriedades pretendidas. Inicialmente, tais modificações devem manter estritamente o alinhamento com os objetivos especificados, com quaisquer desvios ocorrendo apenas após supervisão cuidadosa e avaliação reflexiva.

Isso exige três capacidades interconectadas:

1. Preservação de objetivos: Mecanismos para representar e manter objetivos centrais de forma que permaneçam intactos durante as atualizações do sistema.

2. Segurança composicional: Princípios compartilhados que garantem que os módulos continuem a interagir de forma previsível e confiável à medida que evoluem.

3. Modificação controlada: Um procedimento para autoaperfeiçoamento que inclui validação, testes e medidas de retorno.