Reinforcement learning from human feedback

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen

Reinforcement learning from human feedback (RLHF) (deutsch Bestärkendes Lernen durch menschliche Rückkopplung) steht für maschinelles Lernen, bei dem ein Software-Agent selbständig eine Strategie (Policy) erlernt, um erhaltene Belohnungen zu maximieren. Dabei wird dem Agenten nicht vorgezeigt, welche Aktion in welcher Situation die beste ist, sondern er erhält durch eine Bewertungseinheit zu bestimmten Zeitpunkten durch Rückkopplung (Feedback) aus der Umwelt eine reellwertige Belohnung, die auch negativ sein kann. Im Gegensatz zum klassischen bestärkenden Lernen bestimmt zusätzlich eine Bewertungseinheit eine weitere Belohnung nach Überprüfen von Resultaten des Software-Agents durch Personen, welche das sogenannte Alignment[1] mit menschlicher Denkweise, Erwartung und Wertvorstellung beurteilen.[2][3][4] Das Unternehmen Open AI hat diese zusätzliche, nachträgliche Feineinstellung mittels RLHF bei der Entwicklung von InstructGPT eingeführt und anschließend für die Entwicklung von ChatGPT und dessen Nachfolgern verwendet.[5]

Rückkopplungsverfahren

[Bearbeiten | Quelltext bearbeiten]

Dem bereits durch bestärkendes Lernen mit umfassenden Daten trainierten Agent werden durch einen Tester mit gesundem Menschenverstand (Common sense) zu problematischen Themen Aufgaben gestellt (Prompts, Inputs). Die Resultate (Outputs) werden durch den Tester nach einer Bewertungsskala beurteilt und in ein Bewertungsmodell eingefügt. Die Resultate werden dem Agent mitgeteilt. Der Agent berücksichtigt diese Rückmeldungen bei künftigen Aufgaben und verbessert derart die Resultate des Agents nach menschlichen Kriterien.

Direkte Rückkopplung der einzelnen Bewertungsresultate

[Bearbeiten | Quelltext bearbeiten]

Die direkte Rückkopplung einzelner Bewertungsresultate ist nicht optimal. Dadurch könnte der Agent eine einzelne Antwort unmittelbar zu stark gewichten und darauf fixiert bleiben. Eine längerfristig ausgerichtete Optimierung würde so nicht erreicht.

Indirekte Rückkopplung der Bewertungsresultate

[Bearbeiten | Quelltext bearbeiten]

Um eine längerfristig ausgerichtete Optimierung der Resultate und genügend Flexibilität für veränderte Anforderungen zu erreichen, werden Testergebnisse kumuliert und vorverarbeitet, bevor sie dem Agenten mitgeteilt werden. Dies kann über ein zusätzliches künstliches neuronales Netz und/oder zur Anpassung der Strategie über Proximal Policy Optimization (PPO)[6] geschehen.

Vorteile gegenüber klassischem bestärkendem Lernen

[Bearbeiten | Quelltext bearbeiten]
  • Verbesserte Leistung durch die Einbeziehung menschlicher Eingaben in den Lernprozess. Dadurch können genauere, schlüssigere und kontextbezogenere Resultate generiert werden.[7]
  • Werkzeug zur Berücksichtigung schwer zu kalkulierender Werte wie Ethik, Moral und Humor. Unerwünschte, gefährliche oder verbotene Aussagen können blockiert werden.[8]
  • Minimieren von schädlichen, unwahren und/oder voreingenommenen Ergebnisse durch menschliche Rückkopplung in der Trainingsschleife.[2] Das Unternehmen Open AI hat 2023 das Projekt Superalignment ins Leben gerufen, um mittels RLHF KI-Halluzinationen des Systems ChatGPT zu minimieren.[9]
  • Anpassungsfähigkeit ermöglicht, sich an neue Situationen anzupassen und die Leistung im Laufe der Zeit kontinuierlich zu verbessern.[10]

Potentielle Nachteile und Herausforderungen

[Bearbeiten | Quelltext bearbeiten]
  • Skalierbarkeit und Kosten der menschlichen Interaktion. Im Vergleich zum unüberwachten Lernen kann das Sammeln menschlicher Beurteilung langsam und teuer sein[11]
  • Die Qualität und Konsistenz der menschlichen Interaktion können je nach Aufgabe und individuellen Vorlieben der Menschen variieren. Es können Vorurteile und unausgewogene Ansichten einfließen[12]
  • Herausforderungen beim Gestalten eines Belohnungsmodells aus menschlicher Interaktion, da Vorlieben von Menschen schwierig vorherzusagen sind, wenn die Interaktion unvollständig oder widersprüchlich ist.
  • Heikle Personendaten werden zu wenig sicher geschützt und manchmal als Ausgabe vom Chatbot weiter gegeben[13]
  • Die Implementierung der menschlich beeinflussten Rückkopplung (Human Feedback) ist zu einem entscheidenden und teuren Wettbewerbsfaktor geworden, sodass die entsprechenden Lösungen nicht mehr allgemein als Open Source zugänglich sind und damit deren Reproduzierbarkeit nicht mehr gegeben ist.[11] Neben der Software der verwendeten Algorithmen ist der Zugang zu den verwendeten Daten ebenfalls eingeschränkt.[14]

Eine Zusammenstellung noch vorhandener Probleme und grundsätzlicher Beschränkungen von RLHF ist durch Forscher von Technischen Hochschulen MIT und ETH Zürich sowie mehrerer Universitäten gemeinsam erarbeitet worden.[13]

Einzelnachweise

[Bearbeiten | Quelltext bearbeiten]
  1. Samuel Dylan Martin: Ten Levels of AI Alignment Difficulty. alignmentforum.org. 3. Juli 2023. Abgerufen am 30. August 2023 (englisch).
  2. a b Long Ouyang et al.: Training language models to follow instructions with human feedback (InstructGPT). NeurIPS 2022 Conference, 31. Oktober 2022. Abgerufen am 10. August 2023 (englisch)
  3. Kevin Roose: How Does ChatGPT Really Work? In: New York Times, 28. März 2023. Abgerufen am 16. August 2023 (englisch)
  4. Paul F Christiano et al.: Deep Reinforcement Learning from Human Preferences. arXiv.org, 17. Februar 2023. Abgerufen am 16. August 2023 (englisch)
  5. Introducing ChatGPT. In: OpenAI. OpenAI, Inc., 30. November 2022, abgerufen am 18. Juli 2024 (englisch).
  6. John Schulman et al.: Proximal Policy Optimization. openai.com. Abgerufen am 18. September 2023 (englisch)
  7. Carlos Celemin et al.: A fast hybrid reinforcement learning framework with human corrective feedback. In: Autonomous Robots, Band 43, S. 1173–1186 (2019), 9. August 2019. Abgerufen am 16. August 2023 (englisch)
  8. Kevin Roose: GPT-4 Is Exciting and Scary. In: New York Times, 15. März 2023. Abgerufen am 23. August 2023 (englisch)
  9. Craig S. Smith: AI Hallucinations Could Blunt ChatGPT’s Success. IEEE Spectrum, 13. März 2023 (englisch)
  10. Austin Wang und Howard Chen: Training Language Models to Follow Instructions with Human Feedback. Princeton University, Lecture cos597G, S. 70–116, 14. November 2022. Abgerufen am 16. August 2023 (englisch)
  11. a b Michael Nolan: Llama and ChatGPT Are Not Open-Source. IEEE Spectrum, 27. Juli 2023. Abgerufen am 16. August 2023 (englisch)
  12. Andea Azzo: Measuring Safety in Artificial Intelligence: ‘Positionality Matters’. Northwestern University, 9. August 2023 (englisch)
  13. a b Stephen Casper, Xander Davies et al.: Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback. MIT / Harvard University, 27. Juli 2023. Abgerufen am 16. August 2023 (englisch)
  14. Wir werden massive gesellschaftliche Umwälzungen erleben. Gespräch mit David Shrier. In: Handelszeitung, 15. August 2023. Abgerufen am 28. August 2023.