Generative Modelle (Künstliche Intelligenz)

Der Begriff generativ bedeutet bei künstlicher Intelligenz (KI), dass KI-Systeme aus Eingaben mittels generativer Modelle und gespeicherter Lerndaten neue Ergebnisse/Ausgaben wie Texte, Sprachaussagen, Vertonungen, Bilder oder Videos erzeugen, kreieren, schaffen.^[1] Generative KI-Modelle erlernen Muster und Strukturen vorgängig eingegebener Trainingsdaten und generieren daraus neue Daten mit ähnlichen Eigenschaften.^[2]^[3]

In der statistischen Klassifikation von KI gibt es zwei Hauptansätze, die als der generative Ansatz und der diskriminative Ansatz bezeichnet werden. Beide Ansätze berechnen Klassifikatoren durch unterschiedliche Methoden und unterscheiden sich im Grad der statistischen Modellierung.^[4]

Generative Modelle

Üblicherweise basieren generative Klassifikatoren auf einem generativen Modell (gemeinsame Verteilung) und diskriminative Klassifikatoren auf einem diskriminativen Modell (bedingte Verteilung oder keine Verteilung), ohne zwischen den letzteren beiden Klassen zu unterscheiden.^[5]

Ein generatives Modell ist ein statistisches Modell der gemeinsamen Wahrscheinlichkeitsverteilung (P=Probabilität) $P(X,Y)$ auf einer gegebenen beobachtbaren Variablen X und einer Zielvariablen Y. Ein generatives Modell kann verwendet werden, um zufällige Ergebnisse einer Beobachtung x zu generieren.

Eine alternative, symmetrische Definition für die beiden Hauptansätze lautet für generative Modelle: Ein generatives Modell ist ein Modell der bedingten Wahrscheinlichkeitsverteilung der beobachtbaren Variablen X, gegeben eine Zielvariable y, symbolisch $P(X\mid Y=y)$ .^[6]

Dabei bezeichnet X eine beobachtbare Eingangsvariable mit spezifischen Einzelwerten x und Y eine Ziel- (Ausgangs-)variable mit spezifischen Werten/Objekten y (sogenannten Labels), welche bereits einer Klasse zugeordnet sind.

Unabhängig von der genauen Definition ist die Terminologie brauchbar, da ein generatives Modell verwendet werden kann, um zufällige Instanzen (Ergebnisse) entweder einer Beobachtung und einer Zielvariablen $(x,y)$ oder einer Beobachtung x gegeben einem Zielwert y zu generieren.

Der Begriff generatives Modell wird auch verwendet, um Modelle zu beschreiben, die Instanzen von Ausgabevariablen in einer Weise generieren, die keine klare Beziehung zu Wahrscheinlichkeitsverteilungen über potenzielle Stichproben von Eingabevariablen haben. Erzeugende gegnerische Netze (GANs) sind Beispiele für diese Klasse generativer Modelle und werden hauptsächlich nach der Ähnlichkeit bestimmter Ausgaben zu potenziellen Eingaben beurteilt.^[7] Solche Modelle sind keine Klassifikatoren.

Bei der Anwendung auf die Klassifikation ist die beobachtbare Variable X häufig eine kontinuierliche Variable, die Zielvariable Y ist im Allgemeinen eine diskrete Variable, die aus einer endlichen Menge von Labels besteht. Die bedingte Wahrscheinlichkeitsverteilung $P(Y\mid X)$ kann auch als eine nicht-deterministische Zielfunktion $f\colon X\to Y$ interpretiert werden, wobei X als Eingaben und Y als Ausgaben betrachtet werden.

Beziehungen zwischen beiden Definitionen

Bei der Anwendung auf die Klassifikation ist die beobachtbare Variable X häufig eine kontinuierliche Variable, die Zielvariable Y ist im Allgemeinen eine diskrete Variable, die aus einer endlichen Menge von Labels besteht, und die bedingte Wahrscheinlichkeitsverteilung $P(Y\mid X)$ kann auch als eine nicht-deterministische Ziel Funktion $f\colon X\to Y$ interpretiert werden, wobei X als Eingaben und Y als Ausgaben betrachtet werden. Gegeben eine endliche Menge von Labels, sind die beiden Definitionen eines generativen Modells eng miteinander verwandt. Ein Modell der bedingten Verteilung $P(X\mid Y=y)$ ist ein Modell der Verteilung jedes Labels, und ein Modell der gemeinsamen Verteilung ist gleichwertig mit einem Modell der Verteilung der Labelwerte $P(Y)$ zusammen mit der Verteilung der Beobachtungen gegeben ein Label $P(X\mid Y)$ symbolisch $P(X,Y)=P(X\mid Y)P(Y).$ . Während ein Modell der gemeinsamen Wahrscheinlichkeitsverteilung informativer ist als ein Modell der Verteilung der Label (aber ohne ihre relativen Häufigkeiten), ist es ein relativ kleiner Schritt, daher werden diese nicht immer unterschieden. Gegeben ein Modell der gemeinsamen Verteilung $P(X,Y)$ , können die Verteilungen der einzelnen Variablen als die marginalen Verteilungen $P(X)=\sum _{y}P(X,Y=y)$ und $P(Y)=\int _{x}P(Y,X=x)$ berechnet werden (wobei X als kontinuierlich betrachtet wird, daher über sie integriert wird, und Y als diskret, daher über sie summiert wird), und jede bedingte Verteilung kann aus der Definition der bedingten Wahrscheinlichkeit berechnet werden: $P(X\mid Y)=P(X,Y)/P(Y)$ und $P(Y\mid X)=P(X,Y)/P(X)$ . Gegeben ein Modell einer bedingten Wahrscheinlichkeitsverteilung und geschätzte Wahrscheinlichkeitsverteilungen für die Variablen X und Y, bezeichnet $P(X)$ und $P(Y)$ , kann die entgegengesetzte bedingte Wahrscheinlichkeitsverteilung mit Hilfe der Bayesschen Regel geschätzt werden:

P(X\mid Y)P(Y)=P(Y\mid X)P(X).

.

Zum Beispiel, gegeben ein generatives Modell für $P(X\mid Y)$ , kann geschätzt werden:

P(Y\mid X)=P(X\mid Y)P(Y)/P(X),

und gegeben ein diskriminatives Modell für $P(Y\mid X)$ kann geschätzt werden:

P(X\mid Y)=P(Y\mid X)P(X)/P(Y).

Beachte, dass die Bayessche-Regel (Berechnung einer bedingten Wahrscheinlichkeitsverteilung in Bezug auf die andere) und die Definition der bedingten Wahrscheinlichkeitsverteilung (Berechnung der bedingten Wahrscheinlichkeitsverteilung in Bezug auf die gemeinsame Verteilung) ebenfalls häufig miteinander verwechselt werden.

Unterschied zu diskriminativen Klassifikatoren

Ein generativer Algorithmus modelliert, wie die Daten generiert wurden, um ein Signal zu kategorisieren. Er stellt die Frage: basierend auf meinen Generationsannahmen, welche Kategorie ist am wahrscheinlichsten, dieses Signal zu generieren? Ein diskriminativer Algorithmus kümmert sich nicht darum, wie die Daten generiert wurden, er kategorisiert einfach ein gegebenes Signal. Diskriminative Algorithmen versuchen, $p(y|x)$ direkt aus den Daten zu lernen und dann die Daten zu klassifizieren. Andererseits versuchen generative Algorithmen, $p(x,y)$ zu lernen, was später in $p(y|x)$ umgewandelt werden kann, um die Daten zu klassifizieren. Einer der Vorteile generativer Algorithmen ist, dass man $p(x,y)$ verwenden kann, um neue Daten ähnlich den bestehenden Daten zu generieren. Andererseits wurde gezeigt, dass einige diskriminative Algorithmen eine bessere Leistung erbringen als einige generative Algorithmen in Klassifikationsaufgaben. Trotz der Tatsache, dass diskriminative Modelle die Verteilung der beobachteten Variablen nicht modellieren müssen, können sie im Allgemeinen keine komplexen Beziehungen zwischen den beobachteten und Zielvariablen ausdrücken. Aber im Allgemeinen schneiden sie bei Klassifikations- und Regressionsaufgaben nicht unbedingt besser ab als generative Modelle. Die beiden Klassen werden als komplementär oder als unterschiedliche Ansichten desselben Verfahrens angesehen.

Tiefe generative Modelle

Mit dem Aufkommen des Deep Learnings entstand eine neue Familie von Methoden, die als tiefe, mehrschichtige generative Modelle (engl.: DGMs) bezeichnet werden. Diese werden durch die Kombination von generativen Modellen in tiefen künstlichen neuronalen Netzen gebildet.^[2] Eine Zunahme des Umfangs neuronaler Netze geht typischerweise mit einer Zunahme des Umfangs der Trainingsdaten einher, was beides für eine gute Leistung erforderlich ist.^[8] Zu den populären DGMs gehören Variational Autoencoders (VAEs), generative gegnerische Netzwerke (GANs) und autoregressive Modelle.^[9] In letzter Zeit gibt es einen Trend, sehr große tiefe generative Modelle zu entwickeln. Zum Beispiel sind GPT-3 und sein Vorgänger GPT-2 autoregressive neuronale Sprachmodelle, die Milliarden von Parametern enthalten, sowie KI-Systeme, die zur Bildgenerierung verwendet werden und Milliarden Parametern haben können.^[10] Die elektronische Jukebox ist ein sehr großes generatives Modell für musikalisches Audio, welches ebenfalls Milliarden von Parametern enthält.^[11]

Arten generativer Modelle

Hidden-Markov-Modell
Bayes-Klassifikator (z. B. Naive Bayes, autoregressives Modell)
Latente Dirichlet-Zuweisung^[12]
Boltzmann-Maschine (z. B. Eingeschränkte Boltzmann-Maschine, Deep Belief Network)
Variational Autoencoder (VAE)^[9]
Generatives gegnerisches Netz (GAN)^[9]
Diffusionsmodell (insbesondere zur Bilderzeugung)^[10]

Diskriminative Modelle

Bei diskriminativen KI-Modellen werden Daten auf Grundlage von Unterschieden sortiert.^[2] Ein diskriminatives Modell ist ein Modell der bedingten Wahrscheinlichkeitsverteilung $P(Y\mid X=x)$ der Zielvariablen Y, gegeben eine Beobachtung x. Es kann verwendet werden, um den Wert der Zielvariablen Y bei gegebener Beobachtung x zu diskriminieren.^[6] Bei der Anwendung auf die Klassifikation möchte man von einer Beobachtung x zu einem Label y (oder einer Wahrscheinlichkeitsverteilung über Labels) gelangen. Man kann dies direkt berechnen, ohne eine Wahrscheinlichkeitsverteilung zu verwenden (verteilungsfreier Klassifikator); man kann die Wahrscheinlichkeit eines Labels gegeben eine Beobachtung $P(Y|X=x)$ (diskriminatives Modell) schätzen und darauf basierend klassifizieren; oder man kann die gemeinsame Verteilung $P(X,Y)$ (generatives Modell) schätzen, daraus die bedingte Wahrscheinlichkeit $P(Y|X=x)$ berechnen und darauf basierend klassifizieren. Diese Ansätze sind zunehmend indirekt, aber zunehmend probabilistisch, was ermöglicht, mehr Domänenwissen und Wahrscheinlichkeitstheorie anzuwenden. In der Praxis werden je nach spezifischem Problem unterschiedliche Ansätze verwendet, und Hybride können die Stärken mehrerer Ansätze kombinieren. Der Unterschied zwischen diskriminieren (unterscheiden) und klassifizieren ist subtil und wird nicht konsistent unterschieden.

Arten diskriminativer Modelle

Siehe auch

Generative Transformationsgrammatik
Generativer vortrainierter Transformer (engl. GPT)
Foundation Models

Einzelnachweise

↑ Jayant Narayan, Benjamin Larsen: Generative AI: a game-changer that society and industry need to be ready for. World Economic Forum, 9. Januar 2023, abgerufen am 11. November 2024
↑ ^a ^b ^c Was ist generative KI? redhat.com, 6. März 2024, abgerufen am 11. November 2024
↑ Eliza Strickland: What is generative AI? IEEE Spectrum, 14. Februar 2024 (englisch), abgerufen am 20. November 2024
↑ Ilkay Ulusoy: Comparison of Generative and Discriminative Techniques for Object Detection and Classification. In: Microsoft. Mai 2016, abgerufen am 11. November 2024 (englisch).
↑ Andrew Y. Ng, Michael I. Jordan: On discriminative vs. generative classifiers: A comparison of logistic regression and naive bayes. In: Advances in Neural Information Processing Systems. 2002 (englisch, stanford.edu [PDF; abgerufen am 11. November 2024]).
↑ ^a ^b Tom M. Mitchell: Machine Learning. 2015, 3. Generative and Discriminative Classifiers: Naive Bayes and Logistic Regression (englisch, cmu.edu [PDF]).
↑ Ian Goodfellow et al.: Generative Adversarial Nets. Advances in Neural Information Processing Systems 27 (NIPS 2014), abgerufen am 11. November 2024
↑ Jared Kaplan, Sam McCandlish, Tom Henighan, Tom B. Brown, Benjamin Chess, Rewon Child, Scott Gray, Alec Radford, Jeffrey Wu, Dario Amodei: Scaling Laws for Neural Language Models. 2020; abgerufen im 1. Januar 1 (englisch).
↑ ^a ^b ^c Cole Stryker, Mark Scapicchio: Was ist generative KI? ibm.com, 22. März 2024, abgerufen am 11. November 2024
↑ ^a ^b Arne Arnold: Generative KI: 10 Fragen & Antworten zur Funktionsweise. PC-Welt, 2. Abschnitt, 26. April 2024, abgerufen am 11. November 2024
↑ Jukebox. openai.com, 30. April 2020, abgerufen am 15. November 2024.
↑ David M. Blei, Andrew Y. Ng, Michael I Jordan: Latent Dirichlet Allocation. In: Journal of Machine Learning Research. 3. Jahrgang, Nr. 4–5, Januar 2003, S. 993–1022, doi:10.1162/jmlr.2003.3.4-5.993 (englisch, mit.edu).

[WEF-1] Jayant Narayan, Benjamin Larsen: Generative AI: a game-changer that society and industry need to be ready for. World Economic Forum, 9. Januar 2023, abgerufen am 11. November 2024

[RH-2] Was ist generative KI? redhat.com, 6. März 2024, abgerufen am 11. November 2024

[3] Eliza Strickland: What is generative AI? IEEE Spectrum, 14. Februar 2024 (englisch), abgerufen am 20. November 2024

[MS-4] Ilkay Ulusoy: Comparison of Generative and Discriminative Techniques for Object Detection and Classification. In: Microsoft. Mai 2016, abgerufen am 11. November 2024 (englisch).

[5] Andrew Y. Ng, Michael I. Jordan: On discriminative vs. generative classifiers: A comparison of logistic regression and naive bayes. In: Advances in Neural Information Processing Systems. 2002 (englisch, stanford.edu [PDF; abgerufen am 11. November 2024]).

[TM-6] Tom M. Mitchell: Machine Learning. 2015, 3. Generative and Discriminative Classifiers: Naive Bayes and Logistic Regression (englisch, cmu.edu [PDF]).

[7] Ian Goodfellow et al.: Generative Adversarial Nets. Advances in Neural Information Processing Systems 27 (NIPS 2014), abgerufen am 11. November 2024

[8] Jared Kaplan, Sam McCandlish, Tom Henighan, Tom B. Brown, Benjamin Chess, Rewon Child, Scott Gray, Alec Radford, Jeffrey Wu, Dario Amodei: Scaling Laws for Neural Language Models. 2020; abgerufen im 1. Januar 1 (englisch).

[IBM-9] Cole Stryker, Mark Scapicchio: Was ist generative KI? ibm.com, 22. März 2024, abgerufen am 11. November 2024

[PCW-10] Arne Arnold: Generative KI: 10 Fragen & Antworten zur Funktionsweise. PC-Welt, 2. Abschnitt, 26. April 2024, abgerufen am 11. November 2024

[11] Jukebox. openai.com, 30. April 2020, abgerufen am 15. November 2024.

[Blei-12] David M. Blei, Andrew Y. Ng, Michael I Jordan: Latent Dirichlet Allocation. In: Journal of Machine Learning Research. 3. Jahrgang, Nr. 4–5, Januar 2003, S. 993–1022, doi:10.1162/jmlr.2003.3.4-5.993 (englisch, mit.edu).

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

Generative Modelle (Künstliche Intelligenz)

Inhaltsverzeichnis