#ETHProspects

Entrenamos este modelo utilizando Aprendizaje por Refuerzo a partir de Retroalimentación Humana (RLHF), utilizando los mismos métodos que InstructGPT⁠, pero con ligeras diferencias en la configuración de recolección de datos. Entrenamos un modelo inicial utilizando ajuste fino supervisado: entrenadores de IA humanos proporcionaron conversaciones en las que jugaron ambos lados: el usuario y un asistente de IA. Dimos acceso a los entrenadores a sugerencias escritas por el modelo para ayudarles a componer sus respuestas. Mezclamos este nuevo conjunto de datos de diálogo con el conjunto de datos de InstructGPT, que transformamos en un formato de diálogo.

Para crear un modelo de recompensa para el aprendizaje por refuerzo, necesitábamos recopilar datos de comparación, que consistían en dos o más respuestas del modelo clasificadas por calidad. Para recopilar estos datos, tomamos conversaciones que los entrenadores de IA tuvieron con el chatbot. Seleccionamos aleatoriamente un mensaje escrito por el modelo, muestreamos varias completaciones alternativas y pedimos a los entrenadores de IA que las clasificaran.