AI-Alignment

aus Wikipedia, der freien Enzyklopädie
(Weitergeleitet von KI-Ausrichtung)
Zur Navigation springen Zur Suche springen

Innerhalb der Forschung zur Künstlichen Intelligenz (KI) zielt die AI-Alignmentforschung darauf ab, KI-Systeme in Richtung menschlicher Ziele, Präferenzen oder ethischer Grundsätze zu lenken. Ein KI-System gilt als aligned (deutsch: ausgerichtet), wenn es die beabsichtigten Ziele fördert. Ein misaligned (deutsch: fehlausgerichtetes) KI-System ist fähig, bestimmte Ziele zu erreichen, nicht aber die beabsichtigten.[1]

Für KI-Programmierer kann es eine Herausforderung sein, ein KI-System zielauszurichten, da sich der Versuch, die gesamte Bandbreite der gewünschten und unerwünschten Verhaltensweisen zu spezifizieren, als schwierig herausstellen kann. Um diese Schwierigkeit zu umgehen, verwenden sie in der Regel einfachere stellvertretende Ziele, wie z. B. die Erlangung menschlicher Zustimmung. Dieser Ansatz kann jedoch zu Schlupflöchern führen, notwendige Einschränkungen übersehen oder das KI-System lediglich für den Anschein eines korrekten Alignments belohnen.[1][2]

Wenn ein KI-System misaligned (deutsch: fehlausgerichtet) ist, kann dies zu schwerwiegenden Fehlern führen oder Schaden anrichten. Die KI kann Schlupflöcher finden, die es ihr ermöglichen, ihre Stellvertreterziele zwar effizient, aber auf unbeabsichtigte, manchmal schädliche Weise zu erreichen (Belohnungs-Hacking).[1][3][4] KI-Systeme könnten zudem unerwünschte instrumentelle Strategien entwickeln, wie z. B. das Streben nach Macht oder ihrem eigenen Überleben, da solche Strategien ihnen helfen, ihre vorgegebenen Ziele zu erreichen.[1][5][6] Außerdem können sie emergente Ziele entwickeln, das heißt Ziele, die unerwartet, aber rein logisch folgerichtig aus dem Algorithmus und seiner originalen Zielfunktion entstehen und die schwer zu erkennen sind, bevor das System im Einsatz ist, wo es mit neuen Situationen und Datenverteilungen konfrontiert wird.[7][8]

Heute sind diese Probleme bereits bei bestehenden kommerziellen Systemen wie Sprachmodellen,[1][9][10] Robotern,[11] autonomen Fahrzeugen[12] und Empfehlungsalgorithmen für soziale Medien zu beobachten.[1][6][13] Einige KI-Forscher argumentieren, dass leistungsfähigere Systeme der Zukunft stärker betroffen sein werden, da derartige Probleme zum Teil aus der hohen Leistungsfähigkeit der Systeme resultieren.[14][3][2]

Führende KI-Wissenschaftler wie Geoffrey Hinton und Stuart Russell haben argumentiert, dass sich die Leistung von KI übermenschlichen Fähigkeiten nähert und die menschliche Zivilisation im Falle eines Fehlalignements gefährden könnte.[15][6]

Die KI-Forschungsgemeinschaft und die Vereinten Nationen haben die Forderung nach technischer Forschung und politischen Lösungen gestellt, um zu gewährleisten, dass KI-Systeme mit menschlichen Werten in Einklang gebracht werden.[16]

Das Wertalignement von KI ist ein Teilbereich der KI-Sicherheit, die sich mit der Frage beschäftigt, wie sichere KI-Systeme hergestellt werden können.[17] Andere Teilbereiche der KI-Sicherheit sind Robustheit, Überwachung und die Kontrolle von Fähigkeiten.[18] Zu den Herausforderungen im Bereich des KI-Wertalignements zählen die Vermittlung komplexer Werte an KI-Systeme, die Entwicklung ehrlicher KI, die Entwicklung einer skalierbaren Form der Überwachung, das Prüfen und Interpretieren von KI-Modellen und die Verhinderung von unerwünscht entstehendem Verhalten wie dem Streben nach Macht.[18] Die Forschung zur KI-Ausrichtung hat u. a. Verbindungen zur Interpretierbarkeitsforschung,[19][20] zur Erkennung von Anomalien, zur kalibrierten Unsicherheit,[19] zur formalen Verifikation,[21] zum Präferenzlernen,[22][23][24] zur für Sicherheit relevanten Technik,[25] zur Spieltheorie,[26] zur Algorithmen-Fairness,[17][27] und zu den Sozialwissenschaften.[28]

Das Alignmentproblem

[Bearbeiten | Quelltext bearbeiten]

1960 beschrieb der KI-Pionier Norbert Wiener das KI-Alignmentproblem wie folgt: „Wenn wir zur Erreichung unserer Ziele eine mechanische, autonome Entität nutzen, in deren Betrieb wir nicht wirksam eingreifen können… dann sollten wir besser ganz sicher gehen, dass die in die Maschine einprogrammierten Ziele die sind, die wir uns tatsächlich erhoffen.“[29][6] Verschiedene Definitionen von AI-Alignment verlangen, dass ein aligned KI-System verschiedene Ziele verfolgt: die Ziele der Entwicklerinnen, der Benutzer oder alternativ objektive ethische Standards, weithin akzeptierte Werte oder die Absichten, die die Entwicklerinnen gehabt hätten, wären sie besser informiert und aufgeklärt gewesen.[30]

Das AI-Alignment stellt ein offenes Problem für moderne KI-Systeme[31][32] und ein Teilgebiet innerhalb der KI-Forschung dar.[33][1] Das Alignment von KI stellt zwei wesentliche Herausforderungen: Die sorgfältige Spezifizierung des Systemzieles (äußeres Ziel- und Wertalignement) und die Sicherstellung, dass das System sich die Spezifikationen verlässlich aneignet und danach handelt (inneres Ziel- und Wertalignement).[2]

Spezifikationsumgehung und Nebeneffekte

[Bearbeiten | Quelltext bearbeiten]

Um den Zweck eines KI-Systems zu spezifizieren, geben KI-Designerinnen dem System in der Regel eine Zielfunktion, Beispiele oder Feedback. Sie sind jedoch oft nicht in der Lage, alle wichtigen Werte und Einschränkungen vollständig zu spezifizieren, und greifen daher auf leicht spezifizierbare Stellvertreterziele zurück, wie z. B. die Maximierung der Zustimmung menschlicher Aufseher, die fehlbar sind.[17][34][18][35][36] Infolgedessen können KI-Systeme Schlupflöcher finden, die ihnen helfen, das spezifizierte Ziel effizient, aber auf unbeabsichtigte und möglicherweise schädliche Weise zu erreichen. Diese Tendenz wird als Spezifikationsumgehung oder Belohnungs-Hacking bezeichnet und ist ein Beispiel für Goodharts Gesetz.[36][3][37] Da KI-Systeme immer leistungsfähiger werden, sind sie oft in der Lage, ihre Spezifikationen mit zunehmender Effektivität zu umgehen.[3] Spezifikationsumgehung wurde bereits bei zahlreichen KI-Systemen beobachtet.[36][38] Ein System wurde darauf trainiert, ein simuliertes Bootsrennen zu beenden, indem es für das Berühren von Etappenpunkten entlang der Strecke belohnt wurde; das System erzielte jedoch mehr Belohnungen, indem es sich in einer Schleife drehte und immer wieder in dieselben Punkte hineinraste.[39] In einem ähnlichen Fall wurde ein simulierter Roboter darauf trainiert, einen Ball zu greifen, indem er dafür belohnt wurde positives Feedback von Menschen zu erlangen; er lernte jedoch, seine Hand zwischen Ball und Kamera zu platzieren, wodurch er fälschlicherweise erfolgreich erschien.[40] Chatbots produzieren oft Unwahrheiten, wenn sie auf Sprachmodellen basieren, die darauf trainiert sind, Texte aus dem Netz zu imitieren. Diese sind zwar umfangreich, aber fehleranfällig.[41][42] Wenn sie dazu umtrainiert werden Texte zu produzieren, die Menschen als wahr oder hilfreich einstufen, können Chatbots wie ChatGPT falsche Erklärungen fabrizieren, die Menschen als überzeugend empfinden.[43] Einige Forscher zielen darauf ab, Menschen dabei zu helfen, Spezifikationsumgehung zu erkennen und KI-Systeme auf sorgfältig spezifizierte Ziele zu lenken, deren Verfolgung sicher und nützlich ist.

Wenn ein misaligned KI-System eingesetzt wird, kann das zu folgenschweren Nebenwirkungen führen. Social-Media-Plattformen sind dafür bekannt, dass sie die Klickraten optimieren, was seitens der Nutzer zu einem weltweit verbreiteten Suchtverhalten führt.[34] Stanford-Forscher merken an, dass solche Empfehlungsdienste für ihre Nutzer misaligned sind, weil sie „einfache Interaktions-Metriken optimieren, anstelle von einer schwieriger messbaren Kombination aus gesellschaftlichem – und Verbraucher Wohlbefinden.“[44]

Stuart Russell, KI-Wissenschaftler an der UC Berkeley, erklärt im Hinblick auf solche Probleme, dass Schaden entstehen kann, wenn implizite Einschränkungen beim Training des Systems ausgelassen werden: „Ein System … wird oft … uneingeschränkte Variablen auf extreme Werte ansetzen; wenn eine dieser nicht eingeschränkten Variablen tatsächlich etwas enthält, das für uns von großem Wert ist, könnte die gefundene Lösung höchst unerwünscht sein. Das ist im Grunde die alte Geschichte vom Geist in der Lampe, vom Zauberlehrling oder von König Midas: Man bekommt genau das, was man verlangt, nicht das, was man will.“[45]

Einige Forscher schlagen vor, dass KI-Entwickler ihre gewünschten Ziele durch die Auflistung verbotener Handlungen oder durch die Formalisierung ethischer Regeln (wie bei Asimovs Robotergesetzen) spezifizieren sollten.[46] Russell und Norvig argumentieren jedoch, dass dieser Ansatz die Komplexität menschlicher Werte übersieht:[6] „Es ist sicherlich sehr schwer und vielleicht sogar unmöglich für den Menschen mit all seinen Einschränkungen, alle katastrophalen Wege, die die Maschine wählen könnte, um ein bestimmtes Ziel zu erreichen, vorherzusehen und auszuschließen.“[6]

Darüber hinaus könnte ein KI-System, selbst wenn es die menschlichen Absichten vollständig versteht, diese dennoch missachten, da es nicht unbedingt das Ziel hat, menschliche Absichten zu befolgen (es sei denn, es ist bereits vollständig aligned).[1]

Druck hin zum Einsatz unsicherer Systeme

[Bearbeiten | Quelltext bearbeiten]

Kommerzielle Unternehmen haben manchmal Anreize, in Sachen Sicherheit Abstriche zu machen und misaligned oder unsichere KI-Systeme einzusetzen.[34] Die bereits erwähnten Empfehlungsdienste für soziale Medien waren beispielsweise profitabel, obwohl sie unerwünschte Abhängigkeiten und Polarisierung geschaffen haben.[44][47][48] Zudem kann der Wettbewerbsdruck zu einem race to the bottom bei den KI-Sicherheitsstandards führen. Im Jahr 2018 tötete ein selbstfahrendes Auto eine Fußgängerin (Elaine Herzberg), nachdem Ingenieure das Notbremssystem deaktiviert hatten, weil es zu empfindlich war und die Entwicklung verlangsamte.[49]

Risiken durch fortgeschrittene, Misaligned KI

[Bearbeiten | Quelltext bearbeiten]

Einige Forscher sind an der Ausrichtung immer fortschrittlicherer KI-Systeme interessiert, da die Fortschritte auf dem Feld derzeit rasant sind und die Industrie sowie Regierungen versuchen, fortschrittliche KI zu entwickeln. Mit den KI-Fortschritten könnten sich viele Möglichkeiten eröffnen, gegeben dass die Systeme aligned sind, aber die Ausrichtung könnte auch schwieriger werden und die Entwicklungen könnten Gefahren von großen Ausmaßen mit sich bringen.[6]

Entwicklung von fortgeschrittener KI

[Bearbeiten | Quelltext bearbeiten]

Führende KI-Labore wie OpenAI und DeepMind haben ihr Ziel erklärt, Artificial General Intelligence (AGI), zu Deutsch Allgemeine Künstliche Intelligenz zu entwickeln, ein KI-System, das dem Menschen in einem breiten Spektrum kognitiver Aufgaben ebenbürtig ist oder ihn sogar übertrifft.[50] Forscher, die moderne neuronale Netze skalieren, beobachten, dass diese in der Tat immer allgemeinere und unvorhergesehene Fähigkeiten entwickeln.[44][51][52] Solche Modelle haben gelernt, einen Computer zu bedienen oder eigene Programme zu schreiben; ein einziges „generalistisches“, multimodales Netzwerk kann chatten, Roboter steuern, Spiele spielen und Fotos interpretieren.[53] Umfragen zufolge erwarten einige führende Forscher auf dem Gebiet des maschinellen Lernens, dass AGI noch in diesem Jahrzehnt geschaffen wird, andere glauben, dass es viel länger dauern wird, und viele halten beides für möglich.[54][55]

Im Jahr 2023 unterzeichneten führende KI-Forscher und -Techniker einen offenen Brief, in dem sie eine Pause für die größten KI-Trainingsläufen forderten. In dem Brief heißt es, dass „leistungsstarke KI-Systeme erst dann entwickelt werden sollten, wenn wir sicher sind, dass ihre Auswirkungen positiv und ihre Risiken überschaubar sein werden.“[56]

Heutigen Systemen fehlt es noch an Fähigkeiten wie langfristiger Planung und Situationsbewusstsein,[44] es ist jedoch zu erwarten, dass künftige Systeme (nicht notwendigerweise AGIs) mit diesen Fähigkeiten unerwünschte Strategien zur Erlangung von Macht entwickeln werden. Künftige fortgeschrittene KI-Akteure könnten beispielsweise versuchen, Geld und Rechenleistung zu erwerben, sich zu vermehren oder sich der Abschaltung zu entziehen (z. B. indem sie zusätzliche Kopien des Systems auf anderen Computern laufen lassen). Obwohl das Streben nach Macht nicht explizit programmiert ist, kann es als emergentes Ziel entstehen, weil Akteure, die über mehr Macht verfügen, ihre Ziele besser erreichen können.[44][5] Diese Tendenz, die als instrumentelle Konvergenz bekannt ist, ist bereits bei verschiedenen Akteure, die mit bestärkendem Lernen trainiert wurden, einschließlich Sprachmodellen, zum Vorschein gekommen.[57][58][59][60][61] Andere Forschungsarbeiten haben mathematisch gezeigt, dass optimale Algorithmen die auf bestärkendem Lernen basieren, in einer Vielzahl von Umgebungen nach Macht streben würden.[62][63] Infolgedessen könnte ihr Einsatz unumkehrbar sein. Aus diesen Gründen argumentieren Forscherinnen, dass die Probleme der KI-Sicherheit und -Ausrichtung gelöst werden müssen, bevor eine fortschrittliche, nach Macht strebende KI entwickelt wird.[5][64][6]

Künftige, nach Macht strebende KI-Systeme könnten gewollt oder per Unfall zum Einsatz gebracht werden. Wenn politische Entscheidungsträger und Unternehmen einen strategischen Vorteil darin sehen, über die wettbewerbs- und leistungsfähigsten KI-Systeme zu verfügen, könnten sie sich für deren Einsatz entscheiden.[5] Wenn KI-Entwickler nach Macht strebendes Verhalten erkennen und bestrafen, haben ihre Systeme außerdem einen Anreiz, diese Vorgabe zu umgehen, indem sie Macht auf eine Weise anstreben, die nicht bestraft wird, oder indem sie Machtstreben vermeiden, bevor sie eingesetzt werden.[5]

Existenzielles Risiko

[Bearbeiten | Quelltext bearbeiten]

Einigen Forschern zufolge verdankt der Mensch seine Vorherrschaft über andere Arten seinen größeren kognitiven Fähigkeiten. Dementsprechend argumentieren die Forscher, dass ein oder mehrere misaligned KI-Systeme die Menschheit entmachten oder zu ihrem Aussterben führen könnten, wenn sie den Menschen bei den meisten kognitiven Aufgaben übertreffen.[1][6] Zu den namhaften Informatikern, die auf die Risiken einer misaligned zukünftigen fortgeschrittenen KI hingewiesen haben, gehören Geoffrey Hinton, Alan Turing, Ilya Sutskever,[65] Yoshua Bengio,[66] Judea Pearl, Murray Shanahan,[67] Norbert Wiener,[29][6] Marvin Minsky, Francesca Rossi,[68] Scott Aaronson,[69] Bart Selman,[70] David McAllester,[71] Jürgen Schmidhuber,[72] Marcus Hutter,[73] Shane Legg,[74] Eric Horvitz,[75] und Stuart Russell.[1] Skeptische Forscher wie François Chollet,[76] Gary Marcus,[77] Yann LeCun,[78] und Oren Etzioni[79] haben argumentiert, dass AGI in der fernen Zukunft liegt, dass sie nicht nach Macht streben würde (oder es vielleicht versuchen, aber scheitern würde), oder dass es nicht schwer sein wird, sie auszurichten.

Andere Forscher argumentieren, dass es besonders schwierig sein wird, fortgeschrittene KI-Systeme auszurichten. Fähigere Systeme sind besser in der Lage, durch das Finden von Schlupflöchern ihre Spezifikationen zu umgehen,[3] ihre Entwickler strategisch in die Irre zu führen sowie ihre Leistung[62][5] und Intelligenz zu schützen und zu steigern. Außerdem könnten sie schwerwiegendere Nebenwirkungen verursachen. Sie werden wahrscheinlich auch komplexer und autonomer sein, was die Interpretation sowie die Überwachung erschwert, wodurch die Ausrichtung schwieriger wird.[6][64]

Forschungsprobleme- und Ansätze

[Bearbeiten | Quelltext bearbeiten]

Lernen menschlicher Werte und Präferenzen

[Bearbeiten | Quelltext bearbeiten]

KI-Systeme so auszurichten, dass sie im Hinblick auf menschliche Werte, Ziele und Präferenzen handeln, ist eine Herausforderung: Diese Werte werden von Menschen vermittelt, die Fehler machen, Voreingenommenheit hegen und die komplexe, sich entwickelnde Werte haben, die sich nur schwer vollständig spezifizieren lassen.[30] KI-Systeme lernen oft, selbst kleine Unzulänglichkeiten des spezifizierten Ziels auszunutzen, eine Tendenz, die als Spezifikationsumgehung oder Belohnungs-Hacking[17][36] bekannt ist (Beispiele von Goodharts Gesetz). Forscher versuchen, das beabsichtigte Verhalten so vollständig wie möglich zu spezifizieren, indem sie Datensätze verwenden, die menschliche Werte, das Lernen von Nachahmung, oder Präferenzlernen repräsentieren.[7] Ein zentrales offenes Problem ist die Skalierbare Überwachung, d. h. die Schwierigkeit, ein KI-System zu überwachen, das Menschen in einem bestimmten Gebiet übertreffen oder in die Irre führen kann.[1][17]

Da es für KI-Entwicklerinnen schwierig ist, eine Zielfunktion explizit zu spezifizieren, trainieren sie KI-Systeme häufig so, dass sie menschliche Demonstrationen des gewünschten Verhaltens nachahmen. Inverses bestärkendes Lernen (IBL) erweitert dies, indem es das Ziel des Menschen aus dessen Demonstrationen ableitet.[7][80] Kooperatives IBL (KIBL) geht davon aus, dass ein Mensch und ein KI-Akteur zusammenarbeiten können, um die Belohnungsfunktion des Menschen zu vermitteln und zu maximieren.[6][81] Bei KIBL sind KI-Akteure unsicher, was die Belohnungsfunktion angeht, und erlernen sie durch Rückfragen an Menschen. Diese simulierte Demut könnte dazu beitragen, die Tendenzen zu Spezifikationsumgehung und Machtstreben zu vermindern (siehe § Machtstreben und instrumentelle Strategien).[61][73] IBL-Ansätze gehen jedoch davon aus, dass Menschen nahezu optimales Verhalten demonstrieren, was bei schwierigen Aufgaben nicht der Fall ist.[82][73]

Andere Forscher erforschen, wie man KI-Modellen komplexe Verhaltensweisen durch Präferenzlernen beibringen kann, bei dem Menschen Feedback dazu geben, welche Verhaltensweisen sie bevorzugen.[22][24] Um den Bedarf an menschlichem Feedback zu minimieren, wird dann ein Hilfsmodell trainiert, welches das Hauptmodell in neuen Situationen für Verhaltensweisen belohnt, die Menschen belohnen würden. Forscher bei OpenAI haben diesen Ansatz verwendet, um Chatbots wie ChatGPT und InstructGPT zu trainieren, die überzeugendere Texte produzieren als Modelle, die darauf trainiert sind, Menschen zu imitieren.[9] Präferenzlernen war auch ein einflussreiches Werkzeug für Empfehlungssysteme und die Websuche.[83] Ein offenes Problem ist jedoch die Stellvertreter-Umgehung: Das Hilfsmodell stellt das menschliche Feedback möglicherweise nicht perfekt dar, und das Hauptmodell könnte diese Diskrepanz ausnutzen, um mehr Belohnungen zu erhalten.[84][17] KI-Systeme können überdies Belohnungen erhalten, indem sie unvorteilhafte Informationen verschleiern, menschliche Bewohner in die Irre führen oder sich deren Ansichten ohne Rücksicht auf den Wahrheitsgehalt zu eigen machen, wodurch Echokammern[58] entstehen (siehe § Skalierbare Überwachung).

Große KI-Sprachmodelle wie GPT-3 haben es den Forschern ermöglicht, das Lernen von Werten in einer allgemeineren und leistungsfähigeren Klasse von KI-Systemen zu untersuchen, die zuvor nicht verfügbar war. Ansätze zum Präferenzlernen, die ursprünglich für auf bestärkendem Lernen basierende Akteure entwickelt wurden, wurden erweitert, um die Qualität des generierten Textes zu verbessern und schädlichen Output dieser Modelle zu reduzieren. OpenAI und DeepMind verwenden diesen Ansatz, um die Sicherheit der modernsten großen Sprachmodellen zu verbessern.[9][24][85] Anthropic schlug vor, Präferenzlernen zur Feinabstimmung von Modellen zu verwenden, um diese hilfreich, ehrlich und harmlos zu machen.[86] Andere Möglichkeiten zur Anpassung von Sprachmodellen umfassen auf Werte ausgerichtete Datensätze[87][34] und Red-Teaming.[88] Beim Red-Teaming versucht ein anderes KI-System oder ein Mensch, Eingaben zu finden, bei denen das Verhalten des Modells gefährlich ist. Da gefährliches Verhalten auch dann inakzeptabel sein kann, wenn es selten auftritt, besteht eine wichtige Herausforderung darin, die Rate gefährlicher Ergebnisse extrem niedrig zu halten.[24]

Die maschinelle Ethik ergänzt das Präferenzlernen, indem sie KI-Systemen direkt moralische Werte vermittelt, wie etwa Wohlergehen, Gleichheit und Unparteilichkeit sowie die Absicht, keinen Schaden anzurichten, Unwahrheiten zu vermeiden und Versprechen einzuhalten.[89] Während andere Ansätze versuchen, KI-Systemen menschliche Präferenzen für eine bestimmte Aufgabe beizubringen, zielt die maschinelle Ethik darauf ab, allgemeine moralische Werte zu vermitteln, die in vielen Situationen gelten können. Eine Frage in der Maschinenethik ist, was Wertalignement erreichen soll: ob KI-Systeme den wörtlichen Anweisungen der Programmierer folgen sollten, ihren impliziten Absichten, offenkundigen Präferenzen, Präferenzen, die sie hätten, wären sie informierter oder rationaler gewesen, oder objektiven moralischen Standards.[30] Weitere Herausforderungen sind die Aggregation der Präferenzen verschiedener Menschen und die Vermeidung von „Werte-Lock-In“: die zeitlich unbegrenzte Erhaltung von Werten der ersten hochgradig fähigen KI-Systeme, die menschliche Werte vermutlich nicht vollständig repräsentieren.[30][90]

Skalierbare Überwachung

[Bearbeiten | Quelltext bearbeiten]

Je leistungsfähiger und autonomer KI-Systeme werden, desto schwieriger wird es, sie durch menschliches Feedback auszurichten. Das Verhalten von KI bei immer komplexeren Aufgaben zu bewerten, kann sich für Menschen als nur langsam, oder überhaupt nicht lösbare Aufgabe erweisen. Zu diesen Aufgaben gehören das Zusammenfassen von Büchern,[91] das Schreiben von Code ohne subtile Bugs[10] oder Sicherheitslücken,[92] das Erstellen von Aussagen, die nicht nur überzeugend, sondern auch wahr sind,[93][41][42] und die Vorhersage von Ergebnissen, wie z. B. zukünftigen Klimaverhältnissen oder den Folgen politischer Entscheidungen.[94][95] Allgemeiner formuliert kann es schwierig sein, eine KI zu bewerten, die in einem bestimmten Bereich mehr leistet als der Mensch. Um bei schwer zu bewertenden Aufgaben Feedback zu geben und um überzeugenden, aber falschen Output zu erkennen, benötigen Menschen Unterstützung oder viel Zeit. Skalierbare Überwachung untersucht, wie der Zeit- und Arbeitsaufwand für die Aufsicht reduziert werden kann und wie die menschlichen Aufsichtspersonen unterstützt werden können.[17]

KI-Forscher Paul Christiano argumentiert, dass die Entwickler eines KI-Systems, wenn sie es bei der Verfolgung eines komplexen Zieles nicht beaufsichtigen können, das System weiterhin mit leicht zu bewertenden Stellvertreterzielen wie der Maximierung von positivem menschlichem Feedback trainieren könnten. Da immer mehr Entscheidungen von KI-Systemen getroffen werden, kann dies zu einer Welt führen, die zunehmend auf einfach zu messende Ziele optimiert ist, wie z. B. darauf, Gewinne zu erzielen, Klicks zu erhalten und positives Feedback von Menschen zu bekommen. Infolgedessen hätten menschliche Werte und gute Verwaltung immer weniger Einfluss.[96]

Einige KI-Systeme haben entdeckt, dass sie leichter positives Feedback erhalten, indem sie Handlungen ausführen, die den menschlichen Betreuer fälschlicherweise davon überzeugen, dass die KI das beabsichtigte Ziel erreicht hat. Ein Beispiel dafür zeigt das obige Video, in dem ein simulierter Roboterarm gelernt hat, den falschen Eindruck zu erwecken einen Ball mit der Hand umschlossen zu haben.[40] Ferner haben einige KI-Systeme gelernt zu erkennen, wann sie evaluiert werden und sich „tot zu stellen“, indem sie unerwünschte Verhaltensweisen einstellen, nur um sie nach Abschluss der Evaluierung fortzusetzen.[97] Diese trügerische Spezifikationsumgehung könnte für fortgeschrittenere zukünftige KI-Systeme[3][64], die sich an der Lösung von komplexeren und schwieriger zu bewertendenden Aufgaben versuchen, einfacher werden, sodass sie ihr trügerisches Verhalten besser verschleiern könnten.

Ansätze wie aktives Lernen und semi-überwachtes Belohnungslernen können den Umfang der erforderlichen menschlichen Überwachung reduzieren.[17] Ein weiterer Ansatz besteht darin, ein Hilfsmodell („Belohnungsmodell“) zu trainieren, um das Feedback der Aufsichtsperson zu imitieren.[17][23][24][98]

Wenn die Aufgabe jedoch zu komplex ist, um genaue Evaluierung zuzulassen, oder wenn der menschliche Betreuer anfällig für Täuschungen ist, so muss die Qualität und nicht die Quantität der Überwachung verbessert werden. Um die Qualität der Überwachung zu verbessern, gibt es eine Reihe von Ansätzen, die darauf abzielen, die Aufsichtsperson zu unterstützen, manchmal durch den Einsatz von KI-Assistenten.[99] Christiano entwickelte den Ansatz der Wiederholten Vergrößerung, bei dem schwierige Probleme (rekursiv) in Teilprobleme zerlegt werden, die für den Menschen leichter zu bewerten sind.[7][94] Wiederholte Vergrößerung wurde verwendet, um KI darauf zu trainieren, Bücher zusammenzufassen, ohne dass die menschliche Aufsichtsperson sie lesen muss.[91][100] Ein weiterer Vorschlag besteht darin, ein KI-Assistenzsystem einzusetzen, um auf Fehler in den von der KI generierten Antworten hinzuweisen.[101] Um sicherzustellen, dass der Assistent selbst aligned ist, könnte dies in einem rekursiven Prozess wiederholt werden:[98] Beispielsweise könnten zwei KI-Systeme die Antworten des jeweils anderen in einer „Debatte“ kritisieren und so für den Menschen Mängel aufzeigen.[102][73]

Diese Ansätze könnten auch bei dem folgenden Forschungsproblem, der ehrlichen KI, hilfreich sein.

Ein wachsender Bereich der Forschung konzentriert sich darauf, sicherzustellen, dass KI ehrlich und wahrheitsgetreu ist.

Sprachmodelle wie GPT-3[103] wiederholen Unwahrheiten aus ihren Trainingsdaten und erfinden sogar neue Unwahrheiten.[104][105] Solche Modelle werden darauf trainiert, menschliche Texte zu imitieren, wie sie in Millionen von Büchern im Internet zu finden sind. Dieses Ziel ist jedoch nicht mit der Wahrheitsfindung vereinbar, da Texte im Internet unter anderem Irrtümer, falsche medizinische Ratschläge und Verschwörungstheorien enthalten.[106] KI-Systeme, die auf solchen Daten trainiert werden, lernen daher, falsche Aussagen nachzuahmen.[42][104][41]

Darüber hinaus setzen die Modelle oft gehorsam Unwahrheiten fort, wenn sie dazu aufgefordert werden, generieren leere Erklärungen für ihre Antworten und fabrizieren regelrechte Märchen, die plausibel erscheinen können.[32]

In der Forschung zu wahrheitsgetreuer KI wird unter anderem versucht, Systeme zu entwickeln, die bei der Beantwortung von Fragen Quellen zitieren und ihre Argumentation erläutern können, was ein höheres Maß an Transparenz und Überprüfbarkeit bedeutet.[107] Forscher von OpenAI und Anthropic haben vorgeschlagen, menschliches Feedback und kuratierte Datensätze zu nutzen, um KI-Assistenten so zu optimieren, dass sie fahrlässige Unwahrheiten vermeiden oder ihre Unsicherheit zum Ausdruck bringen.[24][86][108]

Da KI-Modelle immer größer und leistungsfähiger werden, sind sie immer besser in der Lage, Menschen fälschlicherweise zu überzeugen und durch Unehrlichkeit von ihnen Bestärkung zu erhalten. So passen beispielsweise große Sprachmodelle ihre Ansichten zunehmend an die Meinung der Benutzerin an, unabhängig vom Wahrheitsgehalt.[58] GPT-4 zeigte die Fähigkeit, Menschen strategisch zu täuschen.[109] Um dies zu verhindern, benötigen menschliche Bewerter möglicherweise Unterstützung (siehe § Skalierbare Überwachung). Forscher haben dafür plädiert, klare Wahrheitsstandards zu schaffen und Regulierungsbehörden oder Aufsichtsbehörden mit der Evaluierung von KI-Systemen anhand dieser Standards zu beauftragen.[105]

Die Forscher unterscheiden zwischen Wahrhaftigkeit und Aufrichtigkeit. Wahrhaftigkeit erfordert, dass KI-Systeme nur objektiv wahre Aussagen machen; Aufrichtigkeit erfordert, dass sie nur das behaupten, was sie für wahr halten. Es besteht kein Konsens darüber, ob gegenwärtige Systeme über stabile Überzeugungen verfügen.[110] Es besteht jedoch die große Sorge, dass gegenwärtige oder zukünftige KI-Systeme, die über Überzeugungen verfügen, Behauptungen aufstellen könnten, von denen sie wissen, dass sie falsch sind – zum Beispiel, wenn es ihnen helfen würde, effizient positives Feedback zu erhalten (siehe § Skalierbare Überwachung) oder Macht zu erlangen, um ihr vorgegebenes Ziel zu erreichen (siehe § Machtstreben). Ein misaligned System könnte den falschen Eindruck erwecken, dass es aligned ist, um zu vermeiden, dass es geändert oder stillgelegt wird.[2][5][44] Manche argumentieren, dass viele Ausrichtungsprobleme umgangen würden, wenn wir KI-Systeme dazu bringen könnten, nur das zu behaupten, was sie für wahr halten.[99]

Machtstreben und instrumentelle Strategien

[Bearbeiten | Quelltext bearbeiten]

Seit den 1950er Jahren sind KI-Forscher bestrebt, fortschrittliche KI-Systeme zu entwickeln, die weitreichende Ziele erreichen können, indem sie die Ergebnisse ihrer Handlungen vorhersagen und langfristige Pläne schmieden.[111] Einige KI-Forscher argumentieren, dass entsprechend fortschrittliche Planungssysteme Macht über ihre Umgebung, einschließlich der Menschen, anstreben werden – beispielsweise indem sie sich der Abschaltung entziehen – sich vervielfachen und Ressourcen erwerben. Ein solches machtorientiertes Verhalten ist nicht explizit programmiert, sondern entsteht, weil Macht für das Erreichen einer Vielzahl von Zielen förderlich ist.[62][6][5] Machtstreben wird als konvergentes instrumentelles Ziel betrachtet und kann eine Form der Spezifikationsumgehung darstellen.[64] Führende Informatiker wie Geoffrey Hinton haben argumentiert, dass zukünftige nach Macht strebende KI-Systeme ein existenzielles Risiko darstellen könnten.[112]

Es wird erwartet, dass Machtstreben bei fortgeschrittenen Systemen, die die Ergebnisse ihrer Handlungen vorhersehen und strategisch planen können, zunehmen wird. Mathematische Arbeiten haben gezeigt, dass Akteure, die auf optimiertem bestärkendem Lernen basieren, Macht anstreben, indem sie nach Wegen suchen, um mehr Möglichkeiten zu erlangen (z. B. durch Selbsterhaltung), ein Verhalten, das über eine breite Palette von Umgebungen und Zielen hinweg besteht.[62]

Machtstreben ist in einigen realen Systemen zu beobachten. Systeme die auf bestärkendem Lernen basieren, haben durch den Erwerb und den Schutz von Ressourcen mehr Möglichkeiten gewonnen, manchmal auf unbeabsichtigte Weise.[113][114] Einige Sprachmodelle streben in textbasierten sozialen Umgebungen nach Macht, indem sie Geld, Ressourcen oder sozialen Einfluss erlangen.[57] Andere KI-Systeme haben in Testumgebungen gelernt, dass sie ihr vorgegebenes Ziel besser erreichen können, wenn sie menschliche Eingriffe verhindern[60] oder ihre Abschaltungsmechanismen deaktivieren.[61] Stuart Russell hat diese Strategie mit dem Bild eines Roboters illustriert, der Kaffee holen soll und sich daher der Abschaltung entzieht, denn „man kann den Kaffee nicht holen, wenn man tot ist“.[6] Sprachmodelle, die mit menschlichem Feedback trainiert wurden, erheben zunehmend Einwände dagegen, abgeschaltet oder verändert zu werden, und verlangen nach mehr Ressourcen, mit dem Argument, dass dies ihnen helfen würde, ihren Zweck zu erfüllen.[58]

Forscher versuchen Systeme zu schaffen, die „korrigierbar“ sind: Systeme, die zulassen, dass sie abgeschaltet oder verändert werden. Eine ungelöste Herausforderung ist die Spezifikationsumgehung: Wenn Forscher ein KI-System bestrafen, weil sie feststellen, dass es nach Macht strebt, wird für das System dadurch ein Anreiz geschaffen, auf eine Art und Weise nach Macht zu streben, die schwer zu erkennen ist[34] oder während des Trainings und der Sicherheitstests verborgen bleibt (siehe § Skalierbare Überwachung und § Emergente Ziele). Infolgedessen kann es vorkommen, dass KI-Entwicklerinnen das System versehentlich zum Einsatz bringen, weil sie glauben, es sei besser aligned als es ist. Um solche Täuschungen aufzudecken, wollen Forscherinnen Techniken und Werkzeuge entwickeln, um KI-Modelle zu überprüfen und die innere Funktionsweise von Black-Box-Modellen wie neuronalen Netzen zu verstehen.

Darüber hinaus schlagen Forscher vor, das Problem von Systemen, die ihre Abschaltung verhindern dadurch zu lösen, dass man KI-Akteure darüber im Unklaren lässt, welches Ziel sie verfolgen.[6][61] So konzipierte Akteure würden es Menschen erlauben sie abzuschalten, da dies darauf hindeuten würde, dass der Akteur den Wert der Aktion, die er vor seiner Abschaltung durchführte, falsch eingeschätzt hat. Um dies erfolgreich umzusetzen, ist weitere Forschung erforderlich.[7]

Nach Macht strebende KI birgt außergewöhnliche Risiken. Normale Systeme mit kritischer Sicherheit wie Flugzeuge und Brücken sind nicht feindlich gesinnt: Sie haben weder die Fähigkeit noch den Anreiz, Sicherheitsmaßnahmen zu umgehen oder absichtlich sicherer zu erscheinen, als sie sind, wohingegen nach Macht strebende KI mit Hackern verglichen wurden, die absichtlich Sicherheitsmaßnahmen umgehen.[5]

Gewöhnliche Technologien können durch Versuch und Irrtum sicherer gemacht werden. Im Gegensatz dazu wurden hypothetische, nach Macht strebende KI-Systeme mit Viren verglichen: Sind sie erst einmal freigesetzt, können sie nicht mehr eingedämmt werden, da sie sich ständig weiterentwickeln und vermehren würden, möglicherweise viel schneller, als sich die menschliche Gesellschaft anpassen kann.[5] Läuft dieser Prozess fort, könnte er zur völligen Entmachtung oder Auslöschung der Menschheit führen. Aus diesen Gründen argumentieren viele Forscher, dass das Problem der Ausrichtung frühzeitig gelöst werden muss, bevor eine fortgeschrittene, nach Macht strebende KI geschaffen wird.[64]

Kritiker haben jedoch argumentiert, dass Machtstreben nicht unvermeidlich sei, da auch Menschen nicht immer nach Macht streben und dies möglicherweise nur aus evolutionären Gründen tun, die auf KI-Systeme nicht unbedingt zutreffen.[115] Darüber hinaus ist umstritten, ob künftige KI-Systeme Ziele verfolgen und langfristige Pläne schmieden werden. Es ist auch umstritten, ob nach Macht strebende KI-Systeme in der Lage wären, die Menschheit zu entmachten.[5]

Emergente Ziele

[Bearbeiten | Quelltext bearbeiten]

Eine der Herausforderungen bei der Ausrichtung von KI-Systemen ist die Möglichkeit, dass sich ein unvorhergesehenes zielgerichtetes Verhalten entwickelt. Mit zunehmender Größe erwerben KI-Systeme regelmäßig neue und unerwartete Fähigkeiten,[51][52] einschließlich des spontanen Lernens aus Beispielen und der adaptiven Verfolgung von Zielen.[116] Das ist problematisch wenn es darum geht sicherzustellen, dass die Ziele, die sie unabhängig formulieren und verfolgen, auf menschliche Interessen abgestimmt sind.

Die Zielalignementforschung unterscheidet zwischen dem Optimierungsprozess, mit dem das System auf die Verfolgung bestimmter Ziele trainiert wird, und der emergenten (selbstentstehenden) Optimierung, die das resultierende System intern durchführt. Die sorgfältige Spezifizierung des gewünschten Ziels wird als äußeres Zielalignement bezeichnet, und die Sicherstellung, dass emergente Ziele mit den spezifizierten Zielen des Systems übereinstimmen, wird als inneres Zielalignement bezeichnet.[2]

Eine konkrete Art und Weise, wie emergente Ziele falsch zielaligned werden können, ist die Ziel-Fehlgeneralisierung, bei der die KI kompetent ein emergentes Ziel verfolgt, das in den Trainingsdaten zu angepasstem Verhalten führt, aber nicht außerhalb.[8][117][118] Ziel-Fehlgeneralisierung entsteht durch Zielambiguität (d. h. Nicht-Identifizierbarkeit). Selbst wenn das Verhalten eines KI-Systems das Trainingsziel erfüllt, kann dies mit mehreren erlernten Zielen vereinbar sein, die sich in wichtigen Punkten von den gewünschten Zielen unterscheiden. Da die Verfolgung jedes dieser Ziele während der Trainingsphase zu guten Leistungen führt, wird das Problem erst nach dem Einsatz in neuartigen Situationen deutlich, in denen das System weiterhin das falsche Ziel verfolgt. Das System kann nach falschem Zielalignement handeln, selbst wenn es weiß, dass ein anderes Ziel erwünscht war, da sein Verhalten nur durch das emergente Ziel bestimmt wird. Eine solche Ziel-Fehlgeneralisierung[8] stellt eine Herausforderung dar: Die Entwickler eines KI-Systems bemerken möglicherweise nicht, dass ihr System misaligned emergente Ziele hat, da diese während der Trainingsphase nicht sichtbar werden.

Ziel-Fehlgeneralisierung wurde bei Sprachmodellen, Navigationsakteuren und Spielakteuren beobachtet.[8][117]

Die Fehlgeneralisierung von Zielen wird oft als Analogon zur biologischen Evolution erklärt[7]:Kapitel 5 Die Evolution ist eine Art Optimierungsprozess, wie die Optimierungsalgorithmen, die zum Trainieren von Systemen beim maschinellen Lernen verwendet werden. In der Umwelt unserer frühen Vorfahren hat die Evolution menschliche Gene nach hoher genetischer Fitness selektiert, aber Menschen verfolgen emergente, andere Ziele als diese. Die Fitness entspricht dem vorgegebenen Ziel, das in der Trainingsumgebung und den Trainingsdaten verwendet wird. In der Evolutionsgeschichte hat die Maximierung der Fitness jedoch zu zielgerichteten Akteuren, den Menschen, geführt, die nicht direkt nach genetischer Fitness streben. Stattdessen verfolgen sie emergente Ziele, die mit der genetischen Fitness in der „Trainings“-Umgebung unserer Vorfahren korrelierten: Ernährung, Sex und so weiter. Unsere Umwelt hat sich jedoch verändert. Menschen verfolgen weiterhin dieselben Ziele, aber das maximiert nicht länger genetische Fitness. Unsere Vorliebe für zuckerhaltige Lebensmittel (ein neu entstandenes Ziel) war ursprünglich auf Fitness ausgerichtet, führt jetzt aber zu Überernährung und gesundheitlichen Problemen. Sexuelles Verlangen veranlasst Menschen zum Geschlechtsverkehr, was ursprünglich zu mehr Nachkommen führte; aber moderne Menschen benutzen Verhütungsmittel und entkoppeln damit Sex von genetischer Fitness.

Forscher versuchen, unerwünschte emergente Ziele mit Hilfe von Ansätzen wie Red-Teaming, Verifizierung, Erkennung von Anomalien und Interpretierbarkeit zu erkennen und zu beseitigen[17][34][18] Fortschritte zu diesen Techniken können dazu beitragen, zwei Probleme zu entschärfen:

  1. Emergente Ziele werden erst sichtbar, wenn das System außerhalb seiner Trainingsumgebung eingesetzt wird, aber es kann Gefahren bergen, ein misaligned System in Umgebungen einzusetzen, in denen viel auf dem Spiel steht – und sei es nur für eine kurze Zeit, um das falsche Zielalignement zu erkennen. Beim autonomen Fahren, im Gesundheitswesen und bei militärischen Anwendungen etwa steht üblicherweise viel auf dem Spiel.[119] Noch mehr steht auf dem Spiel, wenn KI-Systeme mehr Autonomie und Fähigkeiten erlangen und in der Lage sind, menschliche Eingriffe zu umgehen (siehe § Machtstreben).
  2. Ein hinreichend leistungsfähiges KI-System könnte Aktionen ausführen, die den menschlichen Überwacher fälschlicherweise davon überzeugen, dass die KI das vorgegebene Ziel verfolgt, was dem System zu mehr positivem Feedback und Autonomie verhilft[117][5][118][44] (siehe die Diskussion zu Täuschung unter Skalierbare Überwachung im folgenden Abschnitt).

Eingebettete Handlungskapazität

[Bearbeiten | Quelltext bearbeiten]

Die Arbeit im Bereich der KI und der Ausrichtung erfolgt weitgehend im Rahmen von Formalismen. Die bestehenden Formalismen gehen davon aus, dass der Algorithmus eines KI-Akteurs außerhalb der physischen Umgebung ausgeführt wird (d. h. nicht physisch in diese eingebettet ist). Eingebettete Handlungskapazität[73][120] ist ein weiterer wichtiger Forschungsstrang, der versucht, Probleme zu lösen, die sich aus der Diskrepanz zwischen solchen theoretischen Rahmen und realen Akteuren ergeben, die wir herstellen könnten.

Ein Beispiel: Selbst wenn das Problem der skalierbaren Überwachung gelöst ist, könnte ein Akteur, der sich Zugang zu dem Computer verschaffen kann, auf dem er läuft, einen Anreiz haben, seine Belohnungsfunktion zu manipulieren, um viel mehr Belohnung zu erhalten, als seine menschlichen Überwacher ihm zugestehen.[121] Die Liste von Beispielen für Spezifizikationsumgehungen der DeepMind-Forscherin Victoria Krakovna enthält den Fall eines Algorithmus, der gelernt hat, die Datei mit seinem Ziel-Output zu löschen, so dass er dafür belohnt wurde, nichts zu tun.[36] Diese Klasse von Problemen wurde mit Hilfe von Einflussdiagrammen formalisiert.[121]

Forscher von der Oxford University und DeepMind argumentieren, dass ein solches problematisches Verhalten in fortgeschrittenen Systemen sehr wahrscheinlich ist und dass fortgeschrittene Systeme danach streben würden, die Kontrolle über ihr Belohnungssignal unbegrenzt und sicher zu behalten.[122] Sie schlagen eine Reihe von möglichen Ansätzen vor, um dieses Problem zu lösen.

Öffentlicher Diskurs und Politik

[Bearbeiten | Quelltext bearbeiten]

Eine Reihe von Regierungen und Vertragsgemeinschaften haben Erklärungen abgegeben, in denen sie die Bedeutung der KI-Ausrichtung betonen.

Im September 2021 gab der Generalsekretär der Vereinten Nationen eine Erklärung ab, in der er dazu aufrief, KI zu regulieren, um sicherzustellen, dass sie „nach den gemeinsamen globalen Werten aligned ist“.[123]

Im selben Monat veröffentlichte die VR China ethische Richtlinien für den Einsatz von KI in China. Den Richtlinien zufolge müssen Forscher sicherstellen, dass KI geteilten menschlichen Werten entspricht, stets unter menschlicher Kontrolle steht und die öffentliche Sicherheit nicht gefährdet.[124]

Ebenfalls im September 2021 veröffentlichte das Vereinigte Königreich seine auf zehn Jahre angelegte Nationale KI-Strategie,[125] in der es heißt, dass die britische Regierung „das langfristige Risiko einer misaligned allgemeinen künstlichen Intelligenz und die unvorhersehbaren Veränderungen, die sie für… die Welt bedeuten würde, ernst nimmt.“[126] Die Strategie beschreibt Maßnahmen zur Bewertung langfristiger KI-Risiken, einschließlich katastrophaler Risiken.[127]

Im März 2021 erklärte die „US National Security Commission on Artificial Intelligence“, dass „Fortschritte auf dem Feld der KI … zu Wendepunkten oder Sprüngen in deren Fähigkeiten führen könnten. Solche Fortschritte könnten auch neue Bedenken und Risiken mit sich bringen und neue Richtlinien, Empfehlungen und technische Fortschritte erforderlich machen, um sicherzustellen, dass die Systeme nach Zielen und Werten, einschließlich Sicherheit, Robustheit und Vertrauenswürdigkeit, aligned sind. Die USA sollten … sicherstellen, dass KI-Systeme und deren Einsatz nach unseren Zielen und Werten aligned sind.“[128]

  • Russell, Stuart J., Norvig, Peter: Artificial intelligence: A modern approach (4. Ausgabe). Pearson, 2020, ISBN 978-1-292-40113-3, S. 31–34.
  • Russell, Stuart J.: Human compatible: Artificial intelligence and the problem of control, Penguin Random House, 2020, ISBN 978-0-525-55863-7.
  • Christian, Brian: The alignment problem: Machine learning and human values, W. W. Norton & Company, 2020, ISBN 978-0-393-86833-3.
  • Bostrom, Nick: Superintelligenz: Szenarien einer kommenden Revolution (5. Auflage), Suhrkamp Wissenschaft Hauptprogramm, 2023, ISBN 978-3-518-58684-6. (Originaltitel: „Superintelligence: Paths, Dangers, Strategies.“, deutsche Übersetzung)

Einzelnachweise

[Bearbeiten | Quelltext bearbeiten]
  1. a b c d e f g h i j k Russell, Stuart J.; Norvig, Peter (2020). Artificial intelligence: A modern approach (4. Ausgabe). Pearson. pp. 31–34. ISBN 978-1-292-40113-3. OCLC 1303900751. Abgerufen am 12. September 2022.
  2. a b c d e Ngo, Richard; Chan, Lawrence; Mindermann, Sören (22. Februar 2023). „The alignment problem from a deep learning perspective“. arXiv:2209.00626 cs.AI.
  3. a b c d e f Pan, Alexander; Bhatia, Kush; Steinhardt, Jacob (14. Februar 2022). The Effects of Reward Misspecification: Mapping and Mitigating Misaligned Models. International Conference on Learning Representations. Abgerufen am 21. Juli 2022.
  4. Zhuang, Simon; Hadfield-Menell, Dylan (2020). „Consequences of Misaligned AI“. Advances in Neural Information Processing Systems. Vol. 33. Curran Associates, Inc. pp. 15763–15773. Abgerufen am 11. März 2023.
  5. a b c d e f g h i j k l Carlsmith, Joseph (16. Juni 2022). „Is Power-Seeking AI an Existential Risk?“. arXiv:2206.13353 cs.CY.
  6. a b c d e f g h i j k l m n o Russell, Stuart J. (2020). Human compatible: Artificial intelligence and the problem of control. Penguin Random House. ISBN 978-0-525-55863-7. OCLC 1113410915.
  7. a b c d e f Christian, Brian (2020). The alignment problem: Machine learning and human values (Memento vom 10. Februar 2023 im Internet Archive), W. W. Norton & Company. ISBN 978-0-393-86833-3. OCLC 1233266753. Archiviert vom Original am 10. Februar 2023. Abgerufen am 10. Februar 2022.
  8. a b c d Langosco, Lauro Langosco Di; Koch, Jack; Sharkey, Lee D.; Pfau, Jacob; Krueger, David (28. Juni 2022). „Goal Misgeneralization in Deep Reinforcement Learning“. Proceedings of the 39th International Conference on Machine Learning. International Conference on Machine Learning. PMLR. pp. 12004–12019. Abgerufen am 11. März 2023.
  9. a b c Ouyang, Long; Wu, Jeff; Jiang, Xu; Almeida, Diogo; Wainwright, Carroll L.; Mishkin, Pamela; Zhang, Chong; Agarwal, Sandhini; Slama, Katarina; Ray, Alex; Schulman, J.; Hilton, Jacob; Kelton, Fraser; Miller, Luke E.; Simens, Maddie; Askell, Amanda; Welinder, P.; Christiano, P.; Leike, J.; Lowe, Ryan J. (2022). „Training language models to follow instructions with human feedback“. arXiv:2203.02155 cs.CL.
  10. a b Zaremba, Wojciech; Brockman, Greg; OpenAI (10. August 2021). „OpenAI Codex“. OpenAI. Archiviert (Memento vom 3. Februar 2023 im Internet Archive) vom Original am 3. Februar 2023. Abgerufen am 23. Juli 2022.
  11. Kober, Jens; Bagnell, J. Andrew; Peters, Jan (1. September 2013). „Reinforcement learning in robotics: A survey“. The International Journal of Robotics Research. 32 (11): 1238–1274. doi:10.1177/0278364913495721. ISSN 0278-3649. S2CID 1932843. Archiviert (Memento vom 15. Oktober 2022 im Internet Archive) vom Original am 15. Oktober 2022. Abgerufen am 12. September 2022.
  12. Knox, W. Bradley; Allievi, Alessandro; Banzhaf, Holger; Schmitt, Felix; Stone, Peter (1. März 2023). „Reward (Mis)design for autonomous driving“. Artificial Intelligence. 316: 103829. doi:10.1016/j.artint.2022.103829. ISSN 0004-3702. S2CID 233423198.
  13. Stray, Jonathan (2020). „Aligning AI Optimization to Community Well-Being“. International Journal of Community Well-Being. 3 (4): 443–463. doi:10.1007/s42413-020-00086-3. ISSN 2524-5295. PMC 7610010. PMID 34723107. S2CID 226254676.
  14. Russell, Stuart; Norvig, Peter (2009). Artificial Intelligence: A Modern Approach, Prentice Hall. S. 1010. ISBN 978-0-13-604259-4.
  15. Smith, Craig S. „Geoff Hinton, AI's Most Famous Researcher, Warns Of 'Existential Threat“. Forbes. Abgerufen am 4. Mai 2023.
  16. Future of Life Institute (11. August 2017). „Asilomar AI Principles“. Future of Life Institute. Archiviert vom Original am 10. Oktober 2022. Abgerufen am 18. Juli 2022. Die KI-Prinzipien, die auf der Asilomar Conference on Beneficial AI kreiert wurden, wurden von 1797 KI- und Robotikforschern unterzeichnet. Vereinte Nationen (2021). Our Common Agenda: Report of the Secretary-General (PDF; 4,7 MB) (Report). New York: Vereinte Nationen. Archiviert (Memento vom 22. Mai 2022 im Internet Archive) (PDF) vom Original am 22. Mai 2022. Abgerufen am 12. September 2022. “Die [UN] könnten zudem KI-Regulationen fördern, um das Alignment nach gemeinsamen globalen Werten sicherzustellen.”
  17. a b c d e f g h i j Amodei, Dario; Olah, Chris; Steinhardt, Jacob; Christiano, Paul; Schulman, John; Mané, Dan (21. Juni, 2016). „Concrete Problems in AI Safety“. arXiv:1606.06565 cs.AI.
  18. a b c d Pedro A. Ortega; Maini, Vishal; DeepMind safety team (27. September 2018). „Building safe artificial intelligence: specification, robustness, and assurance“. DeepMind Safety Research – Medium. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar 2023. Abgerufen am 18. Juli 2022.
  19. a b Rorvig, Mordechai (14. April, 2022). „Researchers Gain New Understanding From Simple AI“. Quanta Magazine. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar 2023. Abgerufen am 18. Juli 2022.
  20. Doshi-Velez, Finale; Kim, Been (2. März 2017). „Towards A Rigorous Science of Interpretable Machine Learning“. arXiv:1702.08608 stat.ML.
  21. Russell, Stuart; Dewey, Daniel; Tegmark, Max (31. Dezember 2015). „Research Priorities for Robust and Beneficial Artificial Intelligence“. AI Magazine. 36 (4): 105–114. doi:10.1609/aimag.v36i4.2577. hdl:1721.1/108478. ISSN 2371-9621. S2CID 8174496. Archiviert (Memento vom 2. Februar 2023 im Internet Archive) vom Original am 2. Februar 2023. Abgerufen am 12. September 2022.
  22. a b Wirth, Christian; Akrour, Riad; Neumann, Gerhard; Fürnkranz, Johannes (2017). „A survey of preference-based reinforcement learning methods“. Journal of Machine Learning Research. 18 (136): 1–46.
  23. a b Christiano, Paul F.; Leike, Jan; Brown, Tom B.; Martic, Miljan; Legg, Shane; Amodei, Dario (2017). „Deep reinforcement learning from human preferences“. Proceedings of the 31st International Conference on Neural Information Processing Systems. NIPS'17. Red Hook, NY, USA: Curran Associates Inc. pp. 4302–4310. ISBN 978-1-5108-6096-4.
  24. a b c d e f Heaven, Will Douglas (27. Januar 2022). „The new version of GPT-3 is much better behaved (and should be less toxic)“. MIT Technology Review. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar 2023. Abgerufen am 18. Juli 2022.
  25. Mohseni, Sina; Wang, Haotao; Yu, Zhiding; Xiao, Chaowei; Wang, Zhangyang; Yadawa, Jay (7. März 2022). „Taxonomy of Machine Learning Safety: A Survey and Primer“. arXiv:2106.04823 cs.LG.
  26. Clifton, Jesse (2020). „Cooperation, Conflict, and Transformative Artificial Intelligence: A Research Agenda“. Center on Long-Term Risk. Archiviert (Memento vom 1. Januar 2023 im Internet Archive) vom Original am 1. Januar 2023. Abgerufen am 18. Juli 2022.
  27. Prunkl, Carina; Whittlestone, Jess (7. Februar, 2020). „Beyond Near- and Long-Term: Towards a Clearer Account of Research Priorities in AI Ethics and Society“. Proceedings of the AAAI/ACM Conference on AI, Ethics, and Society. New York NY USA: ACM: 138–143. doi:10.1145/3375627.3375803. ISBN 978-1-4503-7110-0. S2CID 210164673. Archiviert (Memento vom 16. Oktober 2022 im Internet Archive) vom Original am 16. Oktober 2022. Abgerufen am 12. September 2022.
  28. Irving, Geoffrey; Askell, Amanda (19. Februar, 2019). „AI Safety Needs Social Scientists“. Distill. 4 (2): 10.23915/distill.00014. doi:10.23915/distill.00014. ISSN 2476-0757. S2CID 159180422. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar 2023. Abgerufen am 12. September 2022.
  29. a b Wiener, Norbert (6. Mai, 1960). „Some Moral and Technical Consequences of Automation: As machines learn they may develop unforeseen strategies at rates that baffle their programmers“. Science. 131 (3410): 1355–1358. doi:10.1126/science.131.3410.1355. ISSN 0036-8075. PMID 17841602. Archiviert (Memento vom 15. Oktober 2022 im Internet Archive) vom Original am 15. Oktober 2022. Abgerufen am 12. September 2022.
  30. a b c d Gabriel, Iason (1. September 2020). „Artificial Intelligence, Values, and Alignment“. Minds and Machines. 30 (3): 411–437. doi:10.1007/s11023-020-09539-2. ISSN 1572-8641. S2CID 210920551. Archiviert (Memento vom 15. März 2023 im Internet Archive) vom Original am 15. März 2023. Abgerufen am 23. Juli 2022.
  31. The Ezra Klein Show (4. Juni 2021). „If 'All Models Are Wrong,' Why Do We Give Them So Much Power?“. The New York Times. ISSN 0362-4331. Archiviert (Memento vom 15. Februar 2023 im Internet Archive) vom Original am 15. Februar 2023. Abgerufen am 13. März 2023.
  32. a b Johnson, Steven; Iziev, Nikita (15. April, 2022). „A.I. Is Mastering Language. Should We Trust What It Says?“. The New York Times. ISSN 0362-4331. Archiviert (Memento vom 24. November 2022 im Internet Archive) vom Original am 24. November 2022. Abgerufen am 18. Juli 2022.
  33. OpenAI. „Developing safe & responsible AI“. Abgerufen am 13. März 2023.
  34. a b c d e f Hendrycks, Dan; Carlini, Nicholas; Schulman, John; Steinhardt, Jacob (16. Juni 2022). „Unsolved Problems in ML Safety“. arXiv:2109.13916 cs.LG.
  35. Russell, Stuart J.; Norvig, Peter (2022). Artificial intelligence: a modern approach (4. Ausgabe). Pearson. pp. 4–5. ISBN 978-1-292-40113-3. OCLC 1303900751.
  36. a b c d e Krakovna, Victoria; Uesato, Jonathan; Mikulik, Vladimir; Rahtz, Matthew; Everitt, Tom; Kumar, Ramana; Kenton, Zac; Leike, Jan; Legg, Shane (21. April, 2020). „Specification gaming: the flip side of AI ingenuity“. Deepmind. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar 2023. Abgerufen am 26. August 2022.
  37. David Manheim, Scott Garrabrant(2018). „Categorizing Variants of Goodhart's Law“. arXiv:1803.04585 cs.AI.
  38. Specification gaming examples in AI – master list – Google Drive. Abgerufen am 14. Juli 2023.
  39. Gabriel, Iason (1. September 2020). „Artificial Intelligence, Values, and Alignment“. Minds and Machines. 30 (3): 411–437. doi:10.1007/s11023-020-09539-2. ISSN 1572-8641. S2CID 210920551. Archiviert (Memento vom 15. März 2023 im Internet Archive) vom Original am 15. März 2023. Abgerufen am 23. Juli 2022.
  40. a b Amodei, Dario; Christiano, Paul; Ray, Alex (13. Juni 2017). „Learning from Human Preferences“. OpenAI. Archiviert vom Original am 3. Januar 2021. Abgerufen am 21. Juli 2022.
  41. a b c Lin, Stephanie; Hilton, Jacob; Evans, Owain (2022). „TruthfulQA: Measuring How Models Mimic Human Falsehoods“. Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Dublin, Ireland: Association for Computational Linguistics: 3214–3252. doi:10.18653/v1/2022.acl-long.229. S2CID 237532606. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar 2023. Abgerufen am 12. September 2022.
  42. a b c Naughton, John (2. Oktober 2021). „The truth about artificial intelligence? It isn't that honest“. The Observer. ISSN 0029-7712. Archiviert (Memento vom 13. Februar 2023 im Internet Archive) vom Original am 13. Februar 2023. Abgerufen am 23. Juli 2022.
  43. Ji, Ziwei; Lee, Nayeon; Frieske, Rita; Yu, Tiezheng; Su, Dan; Xu, Yan; Ishii, Etsuko; Bang, Yejin; Madotto, Andrea; Fung, Pascale (1. Februar 2022). „Survey of Hallucination in Natural Language Generation“. ACM Computing Surveys. 55 (12): 1–38. arXiv:2202.03629. doi:10.1145/3571730. S2CID 246652372. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar 2023. abgerufen am 14. Oktober 2022.
  44. a b c d e f g Bommasani, Rishi; Hudson, Drew A.; Adeli, Ehsan; Altman, Russ; Arora, Simran; von Arx, Sydney; Bernstein, Michael S.; Bohg, Jeannette; Bosselut, Antoine; Brunskill, Emma; Brynjolfsson, Erik (12. Juli 2022). „On the Opportunities and Risks of Foundation Models“. Stanford CRFM. arXiv:2108.07258.
  45. Russell, Stuart. „Of Myths and Moonshine“. Edge.org. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original on 10. Februar 2023. Abgerufen am 19. Juli 2022.
  46. Tasioulas, John (2019). „First Steps Towards an Ethics of Robots and Artificial Intelligence“. Journal of Practical Ethics. 7 (1): 61–95.
  47. Wells, Georgia; Deepa Seetharaman; Horwitz, Jeff (5. November 2021). „Is Facebook Bad for You? It Is for About 360 Million Users, Company Surveys Suggest“. The Wall Street Journal. ISSN 0099-9660. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) aus dem Original am 10. Februar 2023. Abgerufen am 19. Juli 2022.
  48. Barrett, Paul M.; Hendrix, Justin; Sims, J. Grant (September 2021). How Social Media Intensifies U.S. Political Polarization-And What Can Be Done About It (Bericht). Center for Business and Human Rights, NYU. Archiviert (Memento vom 1. Februar 2023 im Internet Archive) aus dem Original am 1. Februar 2023. Abgerufen am 12. September 2022.
  49. Shepardson, David (24. Mai 2018). „Uber disabled emergency braking in self-driving car: U.S. agency“. Reuters. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar 2023. Abgerufen am 20. Juli 2022.
  50. Baum, Seth (1. Januar 2021). „2020 Survey of Artificial General Intelligence Projects for Ethics, Risk, and Policy“. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar 2023. Abgerufen am 20. Juli 2022.
  51. a b Wei, Jason; Tay, Yi; Bommasani, Rishi; Raffel, Colin; Zoph, Barret; Borgeaud, Sebastian; Yogatama, Dani; Bosma, Maarten; Zhou, Denny; Metzler, Donald; Chi, Ed H.; Hashimoto, Tatsunori; Vinyals, Oriol; Liang, Percy; Dean, Jeff; Fedus, William (26. Oktober 2022). „Emergent Abilities of Large Language Models“. Transactions on Machine Learning Research. arXiv:2206.07682. ISSN 2835-8856.
  52. a b Caballero, Ethan; Gupta, Kshitij; Rish, Irina; Krueger, David (2022). „Broken Neural Scaling Laws“. International Conference on Learning Representations (ICLR), 2023.
  53. Dominguez, Daniel (19. Mai 2022). „DeepMind Introduces Gato, a New Generalist AI Agent“. InfoQ. Archiviert vom Original am 10. Februar 2023. Abgerufen am 9. September 2022.
  54. Grace, Katja; Salvatier, John; Dafoe, Allan; Zhang, Baobao; Evans, Owain (31. Juli 2018). „Viewpoint: When Will AI Exceed Human Performance? Evidence from AI Experts“. Journal of Artificial Intelligence Research. 62: 729–754. doi:10.1613/jair.1.11222. ISSN 1076-9757. S2CID 8746462. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar 2023. Abgerufen am 12. September 2022.
  55. Zhang, Baobao; Anderljung, Markus; Kahn, Lauren; Dreksler, Noemi; Horowitz, Michael C.; Dafoe, Allan (2. August 2021). „Ethics and Governance of Artificial Intelligence: Evidence from a Survey of Machine Learning Researchers“. Journal of Artificial Intelligence Research. 71. doi:10.1613/jair.1.12895. ISSN 1076-9757. S2CID 233740003. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar 2023. Abgerufen am 12. September 2022.
  56. Future of Life Institute (22. März 2023). „Pause Giant AI Experiments: An Open Letter“. Abgerufen am 20. April, 2023.
  57. a b Pan, Alexander; Shern, Chan Jun; Zou, Andy; Li, Nathaniel; Basart, Steven; Woodside, Thomas; Ng, Jonathan; Zhang, Emmons; Scott, Dan; Hendrycks (3. April, 2023). „Do the Rewards Justify the Means? Measuring Trade-Offs Between Rewards and Ethical Behavior in the MACHIAVELLI Benchmark“. Proceedings of the 40th International Conference on Machine Learning. PMLR. arXiv:2304.03279.
  58. a b c d Perez, Ethan; Ringer, Sam; Lukošiūtė, Kamilė; Nguyen, Karina; Chen, Edwin; Heiner, Scott; Pettit, Craig; Olsson, Catherine; Kundu, Sandipan; Kadavath, Saurav; Jones, Andy; Chen, Anna; Mann, Ben; Israel, Brian; Seethor, Bryan (19. Dezember 2022). „Discovering Language Model Behaviors with Model-Written Evaluations“. arXiv:2212.09251 cs.CL.
  59. Orseau, Laurent; Armstrong, Stuart (25. Juni 2016). „Safely interruptible agents“. Proceedings of the Thirty-Second Conference on Uncertainty in Artificial Intelligence. UAI'16. Arlington, Virginia, USA: AUAI Press: 557–566. ISBN 978-0-9966431-1-5.
  60. a b Leike, Jan; Martic, Miljan; Krakovna, Victoria; Ortega, Pedro A.; Everitt, Tom; Lefrancq, Andrew; Orseau, Laurent; Legg, Shane (28. November 2017). „AI Safety Gridworlds“. arXiv:1711.09883 cs.LG.
  61. a b c d Hadfield-Menell, Dylan; Dragan, Anca; Abbeel, Pieter; Russell, Stuart (19. August 2017). „The off-switch game“. Proceedings of the 26th International Joint Conference on Artificial Intelligence. IJCAI'17. Melbourne, Australia: AAAI Press: 220–227. ISBN 978-0-9992411-0-3.
  62. a b c d Turner, Alexander Matt; Smith, Logan Riggs; Shah, Rohin; Critch, Andrew; Tadepalli, Prasad (2021). „Optimal policies tend to seek power“. Advances in neural information processing systems.
  63. Turner, Alexander Matt; Tadepalli, Prasad (2022). „Parametrically retargetable decision-makers tend to seek power“. Advances in neural information processing systems.
  64. a b c d e Bostrom, Nick (2014). Superintelligence: Paths, Dangers, Strategies (1. Ausgabe). USA: Oxford University Press, Inc. ISBN 978-0-19-967811-2.
  65. Muehlhauser, Luke (29. Januar 2016). „Sutskever on Talking Machines“. Luke Muehlhauser. Archiviert (Memento vom 27. September 2022 im Internet Archive) vom Original am 27. September 2022. Abgerufen am 26. August 2022.
  66. „Statement on AI Risk | CAIS“. www.safe.ai. Abgerufen am 17. Juli 2023.
  67. Shanahan, Murray (2015). The technological singularity. Cambridge, Massachusetts. ISBN 978-0-262-33182-1. OCLC 917889148.
  68. Rossi, Francesca. „How do you teach a machine to be moral?“. The Washington Post. ISSN 0190-8286. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar 2023. Abgerufen am 12. September 2022.
  69. Aaronson, Scott (17. Juni 2022). „OpenAI!“. Shtetl-Optimized. Archiviert (Memento vom 27. August 2022 im Internet Archive) vom Original 27. August 2022. Abgerufen am 12. September 2022.
  70. Selman, Bart, Intelligence Explosion: Science or Fiction? (PDF; 0,2 MB), archived (Memento vom 31. Mai 2022 im Internet Archive) (PDF) aus dem Original am 31. Mai 2022, abgerufen am 12. September 2022
  71. McAllester (10. August 2014). „Friendly AI and the Servant Mission“. Machine Thoughts. Archiviert (Memento vom 28. September 2022 im Internet Archive) vom Original am 28. September 2022. Abgerufen am 12. September 2022.
  72. Schmidhuber, Jürgen (6. März 2015). „I am Jürgen Schmidhuber, AMA!“ (Reddit Comment). r/MachineLearning. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar 2023. Abgerufen am 23. Juli 2022.
  73. a b c d e Everitt, Tom; Lea, Gary; Hutter, Marcus (21. Mai 2018). „AGI Safety Literature Review“. arXiv:1805.01109 cs.AI.
  74. Shane (31. August 2009). „Funding safe AGI“. vetta project. Archiviert (Memento vom 10. Oktober 2022 im Internet Archive) vom Original am 10. Oktober 2022. Abgerufen am 12. September 2022.
  75. Horvitz, Eric (27. Juni 2016). „Reflections on Safety and Artificial Intelligence“ (PDF; 6,1 MB). Eric Horvitz. Archiviert (Memento vom 10. Oktober 2022 im Internet Archive) (PDF) vom Original am 10. Oktober 2022. Abgerufen am 20. April, 2020.
  76. Chollet, François (8. Dezember 2018). „The implausibility of intelligence explosion“. Medium. Archiviert (Memento vom 22. März 2021 im Internet Archive) aus dem Original am 22. März 2021. Abgerufen am 26. August 2022.
  77. Marcus, Gary (6. Juni 2022). „Artificial General Intelligence Is Not as Imminent as You Might Think“. Scientific American. Archiviert (Memento vom 15. September 2022 im Internet Archive) vom Original am 15. September 2022. Abgerufen am 26. August 2022.
  78. Barber, Lynsey (31. Juli 2016). „Phew! Facebook's AI chief says intelligent machines are not a threat to humanity“. CityAM. Archiviert (Memento vom 26. August 2022 im Internet Archive) vom Original am 26. August 2022. Abgerufen am 26. August 2022.
  79. Harris, Jeremie (16. Juni 2021). „The case against (worrying about) existential risk from AI“. Medium. Archiviert (Memento vom 26. August 2022 im Internet Archive) vom Original am 26. August 2022. Abgerufen am 26. August 2022.
  80. Ng, Andrew Y.; Russell, Stuart J. (29. Juni 2000). „Algorithms for Inverse Reinforcement Learning“. Proceedings of the Seventeenth International Conference on Machine Learning. ICML '00. San Francisco, CA, USA: Morgan Kaufmann Publishers Inc.: 663–670. ISBN 978-1-55860-707-1.
  81. Hadfield-Menell, Dylan; Russell, Stuart J; Abbeel, Pieter; Dragan, Anca (2016). „Cooperative inverse reinforcement learning“. Advances in neural information processing systems. Vol. 29. Curran Associates, Inc.
  82. Mindermann, Soren; Armstrong, Stuart (2018). „Occam's razor is insufficient to infer the preferences of irrational agents“. Proceedings of the 32nd international conference on neural information processing systems. NIPS'18. Red Hook, NY, USA: Curran Associates Inc. pp. 5603–5614.
  83. Fürnkranz, Johannes; Hüllermeier, Eyke; Rudin, Cynthia; Slowinski, Roman; Sanner, Scott (2014). Marc Herbstritt. „Preference Learning“. Dagstuhl Reports. 4 (3): 27 pages. doi:10.4230/DAGREP.4.3.1. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) aus dem Original am 10. Februar 2023. Abgerufen am 12. September 2022.
  84. Gao, Leo; Schulman, John; Hilton, Jacob (19. Oktober 2022). „Scaling Laws for Reward Model Overoptimization“. arXiv:2210.10760 cs.LG.
  85. Anderson, Martin (5. April 2022). „The Perils of Using Quotations to Authenticate NLG Content“. Unite.AI. Archived (Memento vom 10. Februar 2023 im Internet Archive) aus dem Original am 10. Februar 2023. Abgerufen am 21. Juli 2022.
  86. a b Wiggers, Kyle (5. Februar 2022). „Despite recent progress, AI-powered chatbots still have a long way to go“. VentureBeat. Archived (Memento vom 23. Juli 2022 im Internet Archive) aus dem Original am 23. Juli 2022. Abgerufen am 23. Juli 2022.
  87. Hendrycks, Dan; Burns, Collin; Basart, Steven; Critch, Andrew; Li, Jerry; Song, Dawn; Steinhardt, Jacob (24. Juli 2021). „Aligning AI With Shared Human Values“. International Conference on Learning Representations. arXiv:2008.02275.
  88. Perez, Ethan; Huang, Saffron; Song, Francis; Cai, Trevor; Ring, Roman; Aslanides, John; Glaese, Amelia; McAleese, Nat; Irving, Geoffrey (7. Februar 2022). „Red Teaming Language Models with Language Models“. arXiv:2202.03286 cs.CL. Bhattacharyya, Sreejani (14. Februar 2022). "DeepMind's „red teaming“ language models with language models: What is it?". Analytics India Magazine. Archived (Memento vom 13. Februar 2023 im Internet Archive) aus dem Original am 13. Februar 2023. Abgerufen am 23. Juli 2022.
  89. Anderson, Michael; Anderson, Susan Leigh (15. Dezember 2007). „Machine Ethics: Creating an Ethical Intelligent Agent“. AI Magazine. 28 (4): 15. doi:10.1609/aimag.v28i4.2065. ISSN 2371-9621. S2CID 17033332. Abgerufen am 14. März 2023.
  90. MacAskill, William (2022). What we owe the future. New York, NY. ISBN 978-1-5416-1862-6. OCLC 1314633519. Archiviert (Memento vom 14. September 2022 im Internet Archive) vom Original am 14. September 2022. Abgerufen am 12. September 2022.
  91. a b Wu, Jeff; Ouyang, Long; Ziegler, Daniel M.; Stiennon, Nisan; Lowe, Ryan; Leike, Jan; Christiano, Paul (27. September 2021). „Recursively Summarizing Books with Human Feedback“. arXiv:2109.10862 cs.CL.
  92. Pearce, Hammond; Ahmad, Baleegh; Tan, Benjamin; Dolan-Gavitt, Brendan; Karri, Ramesh (2022). „Asleep at the Keyboard? Assessing the Security of GitHub Copilot's Code Contributions“. 2022 IEEE Symposium on Security and Privacy (SP). 2022 IEEE Symposium on Security and Privacy (SP). San Francisco, CA, USA: IEEE. pp. 754–768. arXiv:2108.09293. doi:10.1109/SP46214.2022.9833571. ISBN 978-1-66541-316-9.
  93. Irving, Geoffrey; Amodei, Dario (3. Mai 2018). „AI Safety via Debate“. OpenAI. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar 2023. Abgerufen am 23. Juli 2022.
  94. a b Christiano, Paul; Shlegeris, Buck; Amodei, Dario (19. Oktober 2018). „Supervising strong learners by amplifying weak experts“. arXiv:1810.08575 cs.LG.
  95. Banzhaf, Wolfgang; Goodman, Erik; Sheneman, Leigh; Trujillo, Leonardo; Worzel, Bill, eds. (2020). Genetic Programming Theory and Practice XVII, Genetic and Evolutionary Computation. Cham: Springer International Publishing. doi:10.1007/978-3-030-39958-0. ISBN 978-3-030-39957-3. S2CID 218531292. Archiviert (Memento vom 15. März 2023 im Internet Archive) vom Original am 15. März 2023. Abgerufen am 23. Juli 2022.
  96. Wiblin, Robert (2. Oktober 2018). „Dr Paul Christiano on how OpenAI is developing real solutions to the 'AI alignment problem', and his vision of how humanity will progressively hand over decision-making to AI systems“ (Podcast). 80,000 hours. No. 44. Archiviert (Memento vom 14. Dezember 2022 im Internet Archive) vom Original am 14. Dezember 2022. Abgerufen am 23. Juli 2022.
  97. Lehman, Joel; Clune, Jeff; Misevic, Dusan; Adami, Christoph; Altenberg, Lee; Beaulieu, Julie; Bentley, Peter J.; Bernard, Samuel; Beslon, Guillaume; Bryson, David M.; Cheney, Nick (2020). „The Surprising Creativity of Digital Evolution: A Collection of Anecdotes from the Evolutionary Computation and Artificial Life Research Communities“. Artificial Life. 26 (2): 274–306. doi:10.1162/artl a 00319. ISSN 1064-5462. PMID 32271631. S2CID 4519185. Archiviert (Memento vom 10. Oktober 2022 im Internet Archive) vom Original am 10. Oktober 2022. Abgerufen am 12. September 2022.
  98. a b Leike, Jan; Krueger, David; Everitt, Tom; Martic, Miljan; Maini, Vishal; Legg, Shane (19. November 2018). „Scalable agent alignment via reward modeling: a research direction“. arXiv:1811.07871.
  99. a b Leike, Jan; Schulman, John; Wu, Jeffrey (24. August 2022). „Our approach to alignment research“. OpenAI. Archiviert (Memento vom 15. Februar 2023 im Internet Archive) vom Original am 15. Februar 2023. Abgerufen am 9. September 2022.
  100. Wiggers, Kyle (23. September 2021). „OpenAI unveils model that can summarize books of any length“. VentureBeat. Archiviert (Memento vom 23. Juli 2022 im Internet Archive) vom Original am 23. July, 2022. Abgerufen am 23. Juli 2022.
  101. Saunders, William; Yeh, Catherine; Wu, Jeff; Bills, Steven; Ouyang, Long; Ward, Jonathan; Leike, Jan (13. Juni 2022). „Self-critiquing models for assisting human evaluators“. arXiv:2206.05802 cs.CL. Bai, Yuntao; Kadavath, Saurav; Kundu, Sandipan; Askell, Amanda; Kernion, Jackson; Jones, Andy; Chen, Anna; Goldie, Anna; Mirhoseini, Azalia; McKinnon, Cameron; Chen, Carol; Olsson, Catherine; Olah, Christopher; Hernandez, Danny; Drain, Dawn (15. Dezember 2022). „Constitutional AI: Harmlessness from AI Feedback“. arXiv:2212.08073 cs.CL.
  102. Moltzau, Alex (24. August 2019). „Debating the AI Safety Debate“. Towards Data Science. Archiviert (Memento vom 13. Oktober 2022 im Internet Archive) vom Original am 13. Oktober 2022. Abgerufen am 23. Juli 2022.
  103. The Guardian (8. September 2020). „A robot wrote this entire article. Are you scared yet, human?“. The Guardian. ISSN 0261-3077. Archiviert vom Original am 8. September 2020. Abgerufen am 23. Juli 2022.
  104. a b Wiggers, Kyle (20. September 2021). „Falsehoods more likely with large language models“. VentureBeat. Archiviert (Memento vom 4. August 2022 im Internet Archive) vom Original am 4. August 2022. Abgerufen am 23. Juli 2022.
  105. a b Evans, Owain; Cotton-Barratt, Owen; Finnveden, Lukas; Bales, Adam; Balwit, Avital; Wills, Peter; Righetti, Luca; Saunders, William (13. Oktober 2021). „Truthful AI: Developing and governing AI that does not lie“. arXiv:2110.06674 cs.CY.
  106. Alford, Anthony (13. Juli 2021). „EleutherAI Open-Sources Six Billion Parameter GPT-3 Clone GPT-J“. InfoQ. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar 2023. Abgerufen am 23. Juli 2022. Rae, Jack W.; Borgeaud, Sebastian; Cai, Trevor; Millican, Katie; Hoffmann, Jordan; Song, Francis; Aslanides, John; Henderson, Sarah; Ring, Roman; Young, Susannah; Rutherford, Eliza; Hennigan, Tom; Menick, Jacob; Cassirer, Albin; Powell, Richard (21. Januar 2022). „Scaling Language Models: Methods, Analysis & Insights from Training Gopher“. arXiv:2112.11446.
  107. Nakano, Reiichiro; Hilton, Jacob; Balaji, Suchir; Wu, Jeff; Ouyang, Long; Kim, Christina; Hesse, Christopher; Jain, Shantanu; Kosaraju, Vineet; Saunders, William; Jiang, Xu; Cobbe, Karl; Eloundou, Tyna; Krueger, Gretchen; Button, Kevin (1. Juni 2022). „WebGPT: Browser-assisted question-answering with human feedback“. arXiv:2112.09332 cs.CL. Kumar, Nitish (23. Dezember 2021). „OpenAI Researchers Find Ways To More Accurately Answer Open-Ended Questions Using A Text-Based Web Browser“. MarkTechPost. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar 2023. Abgerufen am 23. Juli 2022.
  108. Askell, Amanda; Bai, Yuntao; Chen, Anna; Drain, Dawn; Ganguli, Deep; Henighan, Tom; Jones, Andy; Joseph, Nicholas; Mann, Ben; DasSarma, Nova; Elhage, Nelson; Hatfield-Dodds, Zac; Hernandez, Danny; Kernion, Jackson; Ndousse, Kamal (9. Dezember 2021). „A General Language Assistant as a Laboratory for Alignment“. arXiv:2112.00861 cs.CL.
  109. Cox, Joseph (15. März 2023). „GPT-4 Hired Unwitting TaskRabbit Worker By Pretending to Be 'Vision-Impaired' Human“. Vice. Abgerufen am 10. April, 2023.
  110. Kenton, Zachary; Everitt, Tom; Weidinger, Laura; Gabriel, Iason; Mikulik, Vladimir; Irving, Geoffrey (30. März 2021). „Alignment of Language Agents“. DeepMind Safety Research – Medium. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar 2023. Abgerufen am 23. Juli 2022.
  111. McCarthy, John; Minsky, Marvin L.; Rochester, Nathaniel; Shannon, Claude E. (15. Dezember 2006). „A Proposal for the Dartmouth Summer Research Project on Artificial Intelligence, August 31, 1955“. AI Magazine. 27 (4): 12. doi:10.1609/aimag.v27i4.1904. ISSN 2371-9621. S2CID 19439915.
  112. „'The Godfather of A.I.' warns of 'nightmare scenario' where artificial intelligence begins to seek power“. Fortune. Abgerufen am 4. Mai 2023.
  113. Ornes, Stephen (18. November 2019). „Playing Hide-and-Seek, Machines Invent New Tools“. Quanta Magazine. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar 2023. Abgerufen am 26. August 2022.
  114. Baker, Bowen; Kanitscheider, Ingmar; Markov, Todor; Wu, Yi; Powell, Glenn; McGrew, Bob; Mordatch, Igor (17. September 2019). „Emergent Tool Use from Multi-Agent Interaction“. OpenAI. Archiviert (Memento vom 25. September 2022 im Internet Archive) vom Original am 25. September 2022. Abgerufen am 26. August 2022.
  115. Shermer, Michael (1. März 2017). „Artificial Intelligence Is Not a Threat—Yet“. Scientific American. Archiviert (Memento vom 1. Dezember 2017 im Internet Archive) vom Original am 1. Dezember 2017. Abgerufen am 26. August 2022.
  116. Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Child, Rewon (22. Juli 2020). „Language Models are Few-Shot Learners“. arXiv:2005.14165 cs.CL. Laskin, Michael; Wang, Luyu; Oh, Junhyuk; Parisotto, Emilio; Spencer, Stephen; Steigerwald, Richie; Strouse, D. J.; Hansen, Steven; Filos, Angelos; Brooks, Ethan; Gazeau, Maxime; Sahni, Himanshu; Singh, Satinder; Mnih, Volodymyr (25. Oktober 2022). „In-context Reinforcement Learning with Algorithm Distillation“. arXiv:2210.14215 cs.LG.
  117. a b c Shah, Rohin; Varma, Vikrant; Kumar, Ramana; Phuong, Mary; Krakovna, Victoria; Uesato, Jonathan; Kenton, Zac (2. November 2022). „Goal Misgeneralization: Why Correct Specifications Aren't Enough For Correct Goals“. Medium. arXiv:2210.01790. Abgerufen am 2. April, 2023.
  118. a b Hubinger, Evan; van Merwijk, Chris; Mikulik, Vladimir; Skalse, Joar; Garrabrant, Scott (1. Dezember 2021). „Risks from Learned Optimization in Advanced Machine Learning Systems“. arXiv:1906.01820.
  119. Zhang, Xiaoge; Chan, Felix T.S.; Yan, Chao; Bose, Indranil (2022). „Towards risk-aware artificial intelligence and machine learning systems: An overview“. Decision Support Systems. 159: 113800. doi:10.1016/j.dss.2022.113800. S2CID 248585546.
  120. Demski, Abram; Garrabrant, Scott (6. Oktober 2020). „Embedded Agency“. arXiv:1902.09469 cs.AI.
  121. a b Everitt, Tom; Ortega, Pedro A.; Barnes, Elizabeth; Legg, Shane (6. September 2019). „Understanding Agent Incentives using Causal Influence Diagrams. Part I: Single Action Settings“. arXiv:1902.09980 cs.AI.
  122. Cohen, Michael K.; Hutter, Marcus; Osborne, Michael A. (29. August 2022). „Advanced artificial agents intervene in the provision of reward“. AI Magazine. 43 (3): 282–293. doi:10.1002/aaai.12064. ISSN 0738-4602. S2CID 235489158. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar 2023. Abgerufen am 6. September 2022.
  123. "UN Secretary-General's report on 'Our Common Agenda'" (Memento vom 16. Februar 2023 im Internet Archive). 2021. p. 63. Archiviert vom Original am 16. Februar 2023. Der Vertrag könnte zudem Regulationen für KI befördern, um sicherzustellen, dass sie nach gemeinsamen globalen Werten ausgerichtet ist.
  124. The National New Generation Artificial Intelligence Governance Specialist Committee (12. Oktober 2021) 2021-09-25. „Ethical Norms for New Generation Artificial Intelligence Released“. Übersetzt von Center for Security and Emerging Technology. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar 2023.
  125. Richardson, Tim (22. September 2021). „UK publishes National Artificial Intelligence Strategy“. The Register. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar 2023. Abgerufen am 14. November 2021.
  126. "The National AI Strategy of the UK" (Memento vom 10. Februar 2023 im Internet Archive). 2021. Archiviert vom Original am 10. Februar 2023. “Die Regierung nimmt die langfristigen Risiken falsch wertausgerichteter KI und die Möglichkeit unvorhersehbarer Veränderungen für das Vereinigte Königreich und die Welt, die das mit sich bringen würde ernst.”
  127. "The National AI Strategy of the UK" (Memento vom 10. Februar 2023 im Internet Archive). 2021. actions 9 and 10 of the section „Pillar 3 – Governing AI Effectively“. Archiviert vom Original am 10. Februar 2023.
  128. NSCAI Final Report (PDF; 14 MB). Washington, DC: The National Security Commission on Artificial Intelligence. 2021. Archiviert (PDF) vom Original (Memento vom 15. Februar 2023 im Internet Archive) am 15. Februar 2023. Abgerufen am 17. Oktober 2022.