#ETHProspects
Treinamos este modelo usando Aprendizado por Reforço a partir do Feedback Humano (RLHF), usando os mesmos métodos que o InstructGPT, mas com pequenas diferenças na configuração de coleta de dados. Treinamos um modelo inicial usando ajuste fino supervisionado: treinadores humanos de IA forneceram conversas nas quais desempenharam ambos os papéis—o usuário e um assistente de IA. Demos aos treinadores acesso a sugestões escritas pelo modelo para ajudá-los a compor suas respostas. Misturamos este novo conjunto de dados de diálogo com o conjunto de dados do InstructGPT, que transformamos em um formato de diálogo.
Para criar um modelo de recompensa para aprendizado por reforço, precisávamos coletar dados de comparação, que consistiam em duas ou mais respostas do modelo classificadas por qualidade. Para coletar esses dados, pegamos conversas que os treinadores de IA tiveram com o chatbot. Selecionamos aleatoriamente uma mensagem escrita pelo modelo, amostramos várias conclusões alternativas e fizemos os treinadores de IA classificá-las.