#ETHProspects

Wir haben dieses Modell mit Verstärkungslernen aus menschlichem Feedback (RLHF) trainiert, wobei wir die gleichen Methoden wie InstructGPT⁠ verwendet haben, jedoch mit leichten Unterschieden im Setup zur Datensammlung. Wir haben ein anfängliches Modell mit überwachtem Fine-Tuning trainiert: menschliche KI-Trainer führten Gespräche, in denen sie beide Seiten spielten - den Benutzer und einen KI-Assistenten. Wir gaben den Trainern Zugang zu modellgeschriebenen Vorschlägen, um ihnen zu helfen, ihre Antworten zu formulieren. Wir haben dieses neue Dialog-Datenset mit dem InstructGPT-Datenset gemischt, das wir in ein Dialogformat umgewandelt haben.

Um ein Belohnungsmodell für das Verstärkungslernen zu erstellen, mussten wir Vergleichsdaten sammeln, die aus zwei oder mehr modellgeschriebenen Antworten bestanden, die nach Qualität bewertet wurden. Um diese Daten zu sammeln, haben wir Gespräche, die KI-Trainer mit dem Chatbot geführt hatten, genommen. Wir wählten zufällig eine modellgeschriebene Nachricht aus, sammelten mehrere alternative Vervollständigungen und ließen die KI-Trainer diese bewerten.