Deep Learning

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen
Geschichtete Repräsentation von Bildern auf mehreren Abstraktions­ebenen[1]

Deep Learning (deutsch mehrschichtiges Lernen, tiefes Lernen oder tiefgehendes Lernen) bezeichnet eine Methode des maschinellen Lernens, die künstliche neuronale Netze (KNN) mit zahlreichen Zwischenschichten (englisch hidden layers) zwischen Eingabeschicht und Ausgabeschicht einsetzt und dadurch eine umfangreiche innere Struktur herausbildet. Deep learning erlaubt die Verarbeitung und Analyse komplexer Datenmuster; dazu verwendet Deep Learning tiefe hierarchische neuronale Netze, die automatisch abstrakte Merkmale aus den Daten extrahieren. Dies ermöglicht eine effiziente Verarbeitung von komplexen Informationen, was wiederum zu präzisen Vorhersagen und Entscheidungen in verschiedenen Anwendungen führt.

Links: Eingangsschicht (input layer) mit in diesem Fall drei Eingangsneuronen. Rechts: Ausgabeschicht mit den Ausgangsneuronen, in diesem Bild zwei. Die mittlere Schicht wird als verborgen bezeichnet (hidden layer), da ihre Neuronen weder Eingänge noch Ausgänge sind. Hier ist nur eine verborgene Schicht zu sehen, aber viele Netzwerke haben deutlich mehr. Die notwendige Anzahl von Ebenen, ab denen man von „Deep Learning“ spricht, ist nicht genau festgelegt.

Voraussetzungen und Grundlagen

[Bearbeiten | Quelltext bearbeiten]

Die in der Anfangszeit der künstlichen Intelligenz gelösten Probleme waren für den Menschen intellektuell schwierig, aber für Computer einfach zu verarbeiten. Diese Probleme ließen sich durch formale mathematische Regeln beschreiben.

Die wahre Herausforderung an die künstliche Intelligenz bestand jedoch in der Lösung von Aufgaben, die für die Menschen leicht durchzuführen sind, deren Lösung sich aber nur schwer durch mathematische Regeln formulieren lassen. Dies sind Aufgaben, die der Mensch intuitiv löst, wie Sprach- oder Gesichtserkennung.[2][3]

Eine computerbasierte Lösung für diese Art von Aufgaben beinhaltet die Fähigkeit von Computern, aus der Erfahrung zu lernen und die Welt in Bezug auf eine Hierarchie von Konzepten zu verstehen. Hierbei ist jedes Konzept durch seine Beziehung zu einfacheren Konzepten definiert. Durch das Sammeln von Wissen aus der Erfahrung vermeidet dieser Ansatz die Notwendigkeit für die menschlichen Bediener, all das Wissen, das der Computer für seine Arbeit benötigt, formal spezifizieren zu müssen. Die Hierarchie der Konzepte erlaubt es dem Computer, komplizierte Konzepte zu erlernen, indem er sie aus einfacheren zusammensetzt. Wenn man ein Diagramm zeichnet, das zeigt, wie diese Konzepte übereinander aufgebaut werden, dann ist das Diagramm tief, mit vielen Schichten. Aus diesem Grund wird dieser Ansatz in der künstlichen Intelligenz „Deep Learning“ genannt.[2][4]

Es ist schwierig für einen Computer, die Bedeutung von rohen sensorischen Eingangsdaten zu verstehen, wie in der Handschrifterkennung, wo ein Text zunächst nur als eine Sammlung von Bildpunkten existiert. Die Überführung einer Menge von Bildpunkten in eine Kette von Ziffern und Buchstaben ist sehr kompliziert. Komplexe Muster müssen aus Rohdaten extrahiert werden. Das Lernen oder Auswerten dieser Zuordnung scheint unüberwindbar schwierig, wenn sie manuell programmiert würde.[2]

Eine der häufigsten Techniken in der künstlichen Intelligenz ist maschinelles Lernen. Maschinelles Lernen ist ein selbstadaptiver Algorithmus. Deep Learning, eine Teilmenge des maschinellen Lernens, nutzt eine Reihe hierarchischer Schichten bzw. eine Hierarchie von Konzepten, um den Prozess des maschinellen Lernens durchzuführen. Die hierbei benutzten künstlichen neuronalen Netze wurden inspiriert von Gehirnen, in denen biologische Neuronen miteinander verbunden sind.

Die erste Schicht des neuronalen Netzes, die sichtbare Eingangsschicht, verarbeitet eine Rohdateneingabe, wie beispielsweise die einzelnen Pixel eines Bildes. Die Dateneingabe enthält Variablen, die der Beobachtung zugänglich sind, daher „sichtbare Schicht“.[2][5][6][7] Die erste Schicht leitet ihre Ausgaben an die nächste Schicht weiter.

Diese zweite Schicht verarbeitet die Informationen der vorherigen Schicht und gibt das Ergebnis ebenfalls weiter. Die nächste Schicht nimmt die Informationen der zweiten Schicht entgegen und verarbeitet sie weiter. Dies geht über alle Ebenen des künstlichen neuronalen Netzes so weiter.

Diese Schichten werden als versteckte Ebenen (englisch hidden layers) bezeichnet. Die in ihnen enthaltenen Merkmale werden zunehmend abstrakt. Ihre Werte sind nicht in den Ursprungsdaten angegeben. Stattdessen muss das Modell bestimmen, welche Konzepte für die Erklärung der Beziehungen in den beobachteten Daten nützlich sind.

Das Ergebnis wird in der letzten, wieder sichtbaren Schicht ausgegeben. Hierdurch wird die gewünschte komplizierte Datenverarbeitung in eine Reihe von verschachtelten einfachen Zuordnungen unterteilt, die jeweils durch eine andere Schicht des Modells beschrieben werden.[8][2][6][4][9]

Geschichte, Entwicklung und Verwendung

[Bearbeiten | Quelltext bearbeiten]

Die Group method of data handling-KNNs (GMDH-ANN) der 1960er-Jahre von Oleksij Iwachnenko waren die ersten Deep-Learning-Systeme des Feedforward-Multilayer-Perzeptron-Typs.[10][11][12]

Karl Steinbuchs Lernmatrix[13] war eines der ersten künstlichen neuronalen Netze, das aus mehreren Schichten von Lerneinheiten oder lernenden „Neuronen“ bestand. Damit war er einer der Wegbereiter des Deep Learning, bei dem es um tiefe neuronale Netze geht, die viele Aufgaben erlernen können, bei denen frühere einschichtige Perzeptronen scheitern.

Weitere Deep-Learning-Ansätze, vor allem aus dem Bereich des maschinellen Sehens, begannen mit dem Neocognitron, einer Convolutional Neural Network (CNN)-Architektur, die von Kunihiko Fukushima 1980 entwickelt wurde.[14]

Alex Waibels CNN namens TDNN (1987) wurde durch backpropagation trainiert und erzielte Bewegungsinvarianz.[15]

Im Jahr 1989 verwendeten Yann LeCun und Kollegen den Backpropagation-Algorithmus für das Training mehrschichtiger KNNs (siehe Multi-Layer-Perzeptron), mit dem Ziel, handgeschriebene Postleitzahlen zu erkennen.[16]

Sven Behnke hat seit 1997 in der Neuronalen Abstraktionspyramide[17] den vorwärtsgerichteten hierarchisch-konvolutionalen Ansatz durch seitliche und rückwärtsgerichtete Verbindungen erweitert, um so flexibel Kontext in Entscheidungen einzubeziehen und iterativ lokale Mehrdeutigkeiten aufzulösen.

Der Begriff „Deep Learning“ wurde im Kontext des maschinellen Lernens erstmals 1986 von Rina Dechter verwendet, wobei sie hiermit ein Verfahren bezeichnet, bei dem alle verwendeten Lösungen eines betrachteten Suchraums aufgezeichnet werden, die zu keiner gewünschten Lösung geführt haben. Die Analyse dieser aufgezeichneten Lösungen soll es ermöglichen, anschließende Versuche besser zu steuern und somit mögliche Sackgassen in der Lösungsfindung frühzeitig zu verhindern.[18]

Heute wird der Begriff jedoch vorwiegend im Zusammenhang mit künstlichen neuronalen Netzen verwendet und tauchte in diesem Kontext erstmals im Jahr 2000 auf, in der Veröffentlichung Multi-Valued and Universal Binary Neurons: Theory, Learning and Applications von Igor Aizenberg und Kollegen.[19][20][21]

Zwischen 2009 und 2012 gewannen die rekurrenten bzw. tiefen vorwärtsgerichteten neuronalen Netze der Forschungsgruppe von Jürgen Schmidhuber am Schweizer KI-Labor IDSIA eine Serie von acht internationalen Wettbewerben in den Bereichen Mustererkennung und maschinelles Lernen.[22] Insbesondere gewannen ihre rekurrenten LSTM-Netze[23][24] drei Wettbewerbe zur verbundenen Handschrifterkennung bei der 2009 Intl. Conf. on Document Analysis and Recognition (ICDAR) ohne eingebautes A-priori-Wissen über die drei verschiedenen zu lernenden Sprachen. Die LSTM-Netze erlernten gleichzeitige Segmentierung und Erkennung. Dies waren die ersten internationalen Wettbewerbe, die durch Deep Learning[25] oder rekurrente Netze gewonnen wurden.

Die jüngsten Erfolge von Deep Learning-Methoden, wie der Gewinn eines Go-Turniers durch das Programm AlphaGo gegen die weltbesten menschlichen Spieler, gründen sich neben der gestiegenen Verarbeitungsgeschwindigkeit der Hardware auf den Einsatz von Deep Learning zum Training des in AlphaGo verwendeten neuronalen Netzes.[26] Gleiches gilt für die seit 2020 gelungene Vorhersage von Proteinfaltungen.[27] Diese Netze nutzen künstlich erzeugte Neuronen (Perzeptronen), um Muster zu erkennen.

Für Beiträge zu neuronalen Netzwerken und Deep Learning erhielten Yann LeCun, Yoshua Bengio und Geoffrey Hinton 2018 den Turing Award[28] und Hinton zusammen mit John Hopfield 2024 den Physik-Nobelpreis.[29]

Komplexität und Grenzen der Erklärbarkeit

[Bearbeiten | Quelltext bearbeiten]

Tiefe neuronale Netze können eine Komplexität von bis zu hundert Millionen einzelnen Parametern und zehn Milliarden Rechenoperationen pro Eingangsdatum aufweisen. Die Interpretierbarkeit der Parameter und Erklärbarkeit des Zustandekommens der Ergebnisse ist dabei nur noch eingeschränkt möglich und erfordert den Einsatz spezieller Techniken, die unter Explainable Artificial Intelligence zusammengefasst werden.

Ein weiterer Ansatz ist die Verwendung von Methoden aus der Physik von Vielteilchensysteme (Statistische Physik).[30]

Eine weitere Begleiterscheinung des Deep Learning ist die Anfälligkeit für Falschberechnungen, die durch geringfügig veränderte Eingabesignale ausgelöst werden können. Ein Angreifer könnte z. B. Bilddaten absichtlich so manipulieren, dass eine Bilderkennung für Bilder, die für einen Menschen normal aussehen, falsche Ergebnisse liefert. Dieses Phänomen wird unter Adversarial Examples zusammengefasst.[31]

Zu Grenzen und Erklärbarkeit von KI gibt es zwei unterschiedliche Konzepte. Bei beiden lassen sich die Logik, die Vorhersagen und die Entscheidungen einer KI nicht einfach ausdrücken.

  • Transparente KI“ unterstützt die Ausgabe von Informationen, mit denen auch komplexe Entscheidungen erklärt und für den Menschen verständlich gemacht werden können. So kann die Entscheidungsfindung überprüft und bei Bedarf korrigiert werden. Beispiele sind Entscheidungsbäume und Expertensysteme.
  • Opake KI“ unterstützt keine Ausgabe von Informationen, mit denen Entscheidungen für den Menschen verständlich gemacht werden können. Beispiele sind neuronale Netze, Deep Learning und genetische Algorithmen.

Ein bekanntes Beispiel für die Risiken opaker KI ist ein Experiment, das Microsoft im Jahr 2016 mit der Veröffentlichung eines Twitter-Chatbots namens Tay durchgeführt hat. In weniger als 24 Stunden musste Microsoft den Bot abschalten, weil er damit begann, anzügliche und beleidigende Tweets zu verfassen.

Programmbibliotheken

[Bearbeiten | Quelltext bearbeiten]

Neben der meist in Schulungsbeispielen zum Verständnis der internen Struktur vorgestellten Möglichkeit, ein neuronales Netz komplett eigenhändig zu programmieren, gibt es eine Reihe von Softwarebibliotheken,[32] häufig Open Source, lauffähig auf meist mehreren Betriebssystemen, die in gängigen Programmiersprachen wie C, C++, Java oder Python geschrieben sind. Einige dieser Programmbibliotheken unterstützen GPUs oder TPUs zur Rechenbeschleunigung oder stellen Tutorials zur Benutzung dieser Bibliotheken bereit. Mit ONNX können Modelle zwischen einigen dieser Tools ausgetauscht werden.

  • François Chollet: Deep Learning mit Python und Keras: Das Praxis-Handbuch vom Entwickler der Keras-Bibliothek. mitp, 2018, ISBN 978-3-95845-838-3.
  • Ian Goodfellow, Yoshua Bengio, Aaron Courville: Deep Learning: Adaptive Computation and Machine Learning. MIT Press, Cambridge USA 2016, ISBN 978-0-262-03561-3.
  • Jürgen Schmidhuber: Deep learning in neural networks: An overview. In: Neural Networks, 61, 2015, S. 85, arxiv:1404.7828 [cs.NE].
  • Rob F. Walker: Artifical Intelligence in Business: Balancing Risk and Reward, 2017, S. 1–23.
  • Thorsten Hoeser, Claudia Kuenzer: Object Detection and Image Segmentation with Deep Learning on Earth Observation Data: A Review-Part I: Evolution and Recent Trends. Remote Sensing, 12 (10), 2020, S. 1–44. doi:10.3390/rs12101667. ISSN 2072-4292.
  • Thorsten Hoeser, Felix Bachofer, Claudia Kuenzer: Object Detection and Image Segmentation with Deep Learning on Earth Observation Data: A Review-Part II: Applications. Remote Sensing, 12 (18), 2020, S. 3053. doi:10.3390/rs12183053. ISSN 2072-4292.
Commons: Deep Learning – Sammlung von Bildern, Videos und Audiodateien

Einzelnachweise

[Bearbeiten | Quelltext bearbeiten]
  1. Hannes Schulz, Sven Behnke: Deep Learning: Layer-Wise Learning of Feature Hierarchies. In: KI - Künstliche Intelligenz. Band 26, Nr. 4, November 2012, ISSN 0933-1875, S. 357–363, doi:10.1007/s13218-012-0198-z.
  2. a b c d e Ian Goodfellow, Yoshua Bengio, Aaron Courville: Deep Learning. MIT Press, abgerufen am 19. Februar 2017 (englisch).
  3. Mathias Schuh, Lukas Friehoff: Deep Learning im Rechtsmarkt. In: LEGAL REVOLUTIONary. 23. Mai 2019, abgerufen am 23. August 2021.
  4. a b Michael Nielsen: Neural Networks and Deep Learning. Determination Press, abgerufen am 21. Februar 2017 (englisch).
  5. Herbert Bruderer: Erfindung des Computers, Elektronenrechner, Entwicklungen in Deutschland, England und der Schweiz. In: Meilensteine der Rechentechnik. 2., völlig neu bearbeitete und stark erweiterte Auflage. Band 2. De Gruyter, 2018, ISBN 978-3-11-060261-6, Wörterverzeichnis zur Technikgeschichte, S. 408 (eingeschränkte Vorschau in der Google-Buchsuche [abgerufen am 23. November 2019]).
  6. a b David Kriesel: Ein kleiner Überblick über Neuronale Netze. (PDF; 6,1 MB) In: dkriesel.com. 2005, abgerufen am 21. Januar 2019.
  7. Li Deng, Dong Yu: Deep Learning: Methods and Applications. 1. Mai 2014 (microsoft.com [abgerufen am 17. Mai 2020]).
  8. Deep Learning: Definition, Algorithmen, Trainingsmodelle. Abgerufen am 22. April 2024.
  9. Li Deng, Dong Yu: Deep Learning: Methods and Applications. In: Microsoft Research (Hrsg.): Foundations and Trends in Signal Processing. Vol. 7, Nr. 3-4, 1. Mai 2014, ISSN 1932-8346 (englisch, microsoft.com [abgerufen am 22. Februar 2017]).
  10. Ivakhnenko, A. G. and Lapa, V. G. (1965). Cybernetic Predicting Devices. CCM Information Corpo-ration.
  11. Jürgen Schmidhuber: Deep learning in neural networks: An overview. In: Neural Networks. 61, 2015, S. 85, arxiv:1404.7828 [cs.NE].
  12. Jürgen Schmidhuber: Critique of Paper by “Deep Learning Conspiracy” (Nature 521 p 436). In: people.idsia.ch. Juni 2015, abgerufen am 12. April 2019.
  13. Karl Steinbuch: Die Lernmatrix. In: Kybernetik. 1. Jahrgang, Nr. 1, 1961, S. 36–45.
  14. Kunihiko Fukushima: Neocognitron: A Self-organizing Neural Network Model for a Mechanism of Pattern Recognition Unaffected by Shift in Position. In: Biological Cybernetics. 36. Jahrgang, Nr. 4, 1980, S. 193–202, doi:10.1007/BF00344251 (englisch, princeton.edu [PDF]).
  15. Alex Waibel: Phoneme Recognition Using Time-Delay Neural Networks. Meeting of the Institute of Electrical, Information and Communication Engineers (IEICE), Tokyo, Japan, 1987. 1987 (englisch).
  16. Yann LeCun et al.: Backpropagation Applied to Handwritten Zip Code Recognition. Neural Computation, 1, 1989, S. 541–551, abgerufen am 11. Mai 2020.
  17. Sven Behnke: Hierarchical Neural Networks for Image Interpretation (= Lecture Notes in Computer Science. Band 2766). Springer Berlin Heidelberg, Berlin, Heidelberg 2003, ISBN 3-540-40722-7, doi:10.1007/b11963.
  18. Rina Dechter: Learning while searching in constraint-satisfaction problems. (PDF; 531 kB) In: fmdb.cs.ucla.edu. University of California, Computer Science Department, Cognitive Systems Laboratory, 1985, archiviert vom Original (nicht mehr online verfügbar) am 16. September 2021; abgerufen am 9. Juli 2020 (englisch).  Info: Der Archivlink wurde automatisch eingesetzt und noch nicht geprüft. Bitte prüfe Original- und Archivlink gemäß Anleitung und entferne dann diesen Hinweis.@1@2Vorlage:Webachiv/IABot/fmdb.cs.ucla.edu
  19. Horváth & Partners: „Künstliche Intelligenz wird alles ändern“ (ab 0:11:30) auf YouTube, 9. Mai 2016, abgerufen am 6. November 2018 (Vortrag von Jürgen Schmidhuber).
  20. Jürgen Schmidhuber: Deep Learning since 1991. In: people.idsia.ch. 31. März 2017, abgerufen am 1. Dezember 2018.
  21. Igor Aizenberg, Naum N. Aizenberg, Joos P.L. Vandewalle: Multi-Valued and Universal Binary Neurons: Theory, Learning and Applications. Springer Science & Business Media, 2013, ISBN 978-1-4757-3115-6 (englisch, google.com).
  22. 2012 Kurzweil AI Interview (Memento vom 31. August 2018 im Internet Archive) mit Jürgen Schmidhuber zu den acht Wettbewerben, die sein Deep Learning Team zwischen 2009 und 2012 gewann
  23. Alex Graves, Jürgen Schmidhuber: Offline Handwriting Recognition with Multidimensional Recurrent Neural Networks. In: Yoshua Bengio, Dale Schuurmans, John Lafferty, Chris K. I. Williams, Aron Culotta (Hrsg.): Advances in Neural Information Processing Systems 22 (NIPS'22), December 7th–10th, 2009, Vancouver, BC. Neural Information Processing Systems (NIPS) Foundation, 2009, S. 545–552
  24. A. Graves, M. Liwicki, S. Fernandez, R. Bertolami, H. Bunke, J. Schmidhuber: A Novel Connectionist System for Improved Unconstrained Handwriting Recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, Band 31, Nr. 5, 2009.
  25. Y. Bengio: Learning Deep Architectures for AI. (Memento vom 21. März 2014 im Internet Archive) Now Publishers, 2009.
  26. Demis Hassabis: AlphaGo: using machine learning to master the ancient game of Go. In: blog.google. Google, 27. Januar 2016, abgerufen am 16. Juli 2017 (englisch).
  27. AlphaFold: a solution to a 50-year-old grand challenge in biology. In: deepmind.com. 30. November 2020, abgerufen am 19. Dezember 2020 (englisch).
  28. Alexander Neumann: Deep Learning: Turing Award für Yoshua Bengio, Geoffrey Hinton und Yann LeCun – heise online. In: heise.de. 28. März 2019, abgerufen am 29. März 2019.
  29. Dirk Eidemüller: Physik-Nobelpreis 2024. In: Welt der Physik. 8. Oktober 2024, abgerufen am 13. Januar 2025.
  30. John Hertz, Anders Krogh, Richard G. Palmer: Introduction to the theory of neural computation (= Santa Fé Institute studies in the sciences of complexity Lecture notes. Nr. 1). Addison-Wesley, Reading, Mass. 1999, ISBN 0-201-51560-1.
  31. Leilani H. Gilpin, David Bau, Ben Z. Yuan, Ayesha Bajwa, Michael Specter: Explaining Explanations: An Overview of Interpretability of Machine Learning. In: 2018 IEEE 5th International Conference on Data Science and Advanced Analytics (DSAA). IEEE, Turin 2018, ISBN 978-1-5386-5090-5, S. 80–89, doi:10.1109/DSAA.2018.00018 (ieee.org [abgerufen am 8. Dezember 2019]).
  32. Dan Clark: Top 16 Open Source Deep Learning Libraries and Platforms. KDnuggets, April 2018, abgerufen am 8. Januar 2019 (englisch).
  33. Keras Documentation. In: Keras: Deep Learning library for Theano and TensorFlow. Abgerufen am 6. März 2017 (englisch).
  34. Why use Keras? In: keras.io. Abgerufen am 8. Januar 2020 (englisch): „Keras is also a favorite among deep learning researchers, coming in #2 in terms of mentions in scientific papers uploaded to the preprint server arXiv.org. Keras has also been adopted by researchers at large scientific organizations, in particular CERN and NASA.“
  35. Torch | Scientific computing for LuaJIT. Abgerufen am 17. Februar 2017 (englisch).
  36. Rainald Menge-Sonnentag: Maschinelles Lernen: Facebook veröffentlicht Open-Source-Framework für Torch. In: heise.de. 24. Juni 2016, abgerufen am 17. Februar 2017.
  37. The Microsoft Cognitive Toolkit. In: microsoft.com. Abgerufen am 11. August 2017 (amerikanisches Englisch).
  38. Startseite. In: paddlepaddle.org. Abgerufen am 17. Februar 2017 (englisch).
  39. Alexander Neumann: Baidu gibt Deep-Learning-System als Open Source frei. In: heise.de. 2. September 2016, abgerufen am 17. Februar 2017.
  40. Theano. In: deeplearning.net. Archiviert vom Original (nicht mehr online verfügbar) am 8. November 2020; abgerufen am 20. September 2019 (englisch).  Info: Der Archivlink wurde automatisch eingesetzt und noch nicht geprüft. Bitte prüfe Original- und Archivlink gemäß Anleitung und entferne dann diesen Hinweis.@1@2Vorlage:Webachiv/IABot/deeplearning.net
  41. Apache MXNet (Incubating) – A flexible and efficient library for deep learning. In: mxnet.apache.org. Abgerufen am 5. September 2019 (englisch).