Zum Inhalt springen
OIT Menü – Preview mit KI & DEV
/ Home / Glossar / RLHF

RLHF

RLHF (Reinforcement Learning from Human Feedback) ist die Trainingsmethode, mit der moderne Chat-Modelle wie ChatGPT, Claude und Gemini ihre Helpful-, Harmless- und Honest-Eigenschaften erhalten. Menschen bewerten Modell-Antworten, ein Reward-Modell lernt daraus, und das Basismodell wird per Reinforcement Learning auf diese Rewards optimiert.

Neuere Varianten wie DPO (Direct Preference Optimization) vereinfachen den Prozess, indem sie das separate Reward-Modell wegfallen lassen. Für Enterprise-KI ist das Verständnis von RLHF relevant, wenn eigene Modelle an domänenspezifische Tonalität und Werte angepasst werden sollen.

Für maßgeschneiderte KI-Strategien und Modell-Alignment beraten wir im Rahmen unserer KI-Dienstleistungen.