Diskussion:Reinforcement learning from human feedback
Letzter Kommentar: vor 1 Jahr von Matthäus Wander in Abschnitt Einzelnachweis Beschreibungen 2011
Einzelnachweis Bestärkendes Lernen
[Quelltext bearbeiten]Im Gegensatz zum klassischen bestärkenden Lernen[1] (...)
- Welche Aussage wird in dem Satz durch die Quelle belegt? Dass es den Begriff bestärkendes Lernen gibt? Das ergibt sich aus der Existenz des Artikels Bestärkendes Lernen und bedarf in diesem Artikel keines Belegs. --Matthäus Wander 14:51, 28. Aug. 2023 (CEST)
- Entfernt, da unnötig--BBCLCD (Diskussion) 16:42, 28. Aug. 2023 (CEST)
Einzelnachweis Beschreibungen 2011
[Quelltext bearbeiten]Beschreibungen erfolgten bereits 2011.[2]
- Ist damit gemeint, dass der Begriff 2011 erstmals eingeführt wurde? Oder um welche Beschreibungen geht es? --Matthäus Wander 14:57, 28. Aug. 2023 (CEST)
- Richtig. Das Thema wurde bereits 2011 behandelt (RLHF). Ob es früher Veröffentlichungen zu diesem Thema gab, weiss ich nicht, habe keine gefunden--BBCLCD (Diskussion) 16:49, 28. Aug. 2023 (CEST)
- Ich finde, die Aussage ist in der aktuellen Form keine relevante Information für die Einleitung. --Matthäus Wander 20:18, 30. Aug. 2023 (CEST)
- Richtig. Das Thema wurde bereits 2011 behandelt (RLHF). Ob es früher Veröffentlichungen zu diesem Thema gab, weiss ich nicht, habe keine gefunden--BBCLCD (Diskussion) 16:49, 28. Aug. 2023 (CEST)
Einzelnachweise
[Quelltext bearbeiten]- ↑ Christian Meier: Der Computer macht sich selbst schlau. In: NZZ, 20. Oktober 2017. Abgerufen am 12. August 2023 (Paywall)
- ↑ W. Bradley Knox und Peter Stone: Augmenting Reinforcement Learning with Human Feedback. Texas University / TU Darmstadt, 2011. Abgerufen am 12. August 2023 (englisch)