KI-Beschleuniger
KI-Beschleuniger (englisch AI accelerator) sind elektronische Zusatzeinrichtungen (Erweiterungen der Hardware) und entsprechende Computerprogramme zur rascheren, effizienteren Bearbeitung von Aufgaben der künstlichen Intelligenz.[1]
Dabei unterscheidet man zwischen Einrichtungen für Rechenzentren und Hostrechner sowie Lösungen für die Netzperipherie wie für PCs, Notebooks und Smartphones wie auch für Robotik und Autonomes Fahren. Dabei angewandte Techniken sind Rechnen mit reduzierter Genauigkeit zur rascheren Abwicklung, hochparallele Verarbeitung von Daten in Koprozessoren und direkte Verarbeitung innerhalb von Datenspeichern.[2] Für diese beschleunigte Abwicklung durch Berechnungen innerhalb von Datenspeichern wird der Begriff In-Memory Processing verwendet.[3] Bei Lösungen mit künstlichen neuronalen Netzen werden oft auch die Begriffe neuronale Verarbeitungseinheit (englisch Neural Processor Unit (NPU)) oder Deep Learning Processor (DLP) verwendet.[1]
Geschichte
[Bearbeiten | Quelltext bearbeiten]Die Aufteilung von Aufgaben in solche für einen Hauptprozessor (CPU) und in jene für spezialisierte Koprozessoren begann früh. So wurden auf Zusatzkarten mit Koprozessoren Ton- und Grafikkarten als Erweiterung von PCs angeboten. Erstmals wurden 1977 derartige Erweiterungskarten zum Apple-II-PC eingeführt.
Zur Texterkennung (OCR) wurden digitale Signalprozessoren als Koprozessoren verwendet.[4]
KI-Beschleuniger mittels field-programmable Gate-Arrays wurden ab 1995 für das Training und die Klassierung mittels künstlicher neuronaler Netze beschrieben.[5]
Erste in System-on-a-Chip (SoCs) integrierte Grafikprozessoren (GPUs) für KI-Anwendungen in Smartphones wurden von der Firma Qualcomm unter dem Namen Snapdragon der Serie 8 ab 2015 verwirklicht.[6]
KI-Beschleuniger in Rechenzentren
[Bearbeiten | Quelltext bearbeiten]KI-Beschleuniger spielen in Rechenzentren und im Cloud-Computing eine entscheidende Rolle, da sie die Effizienz und Leistung von KI-Anwendungen erheblich steigern. Über spezielle Parallelverarbeitungsfunktionen in spezieller Hardware können damit Milliarden von Berechnungen gleichzeitig durchgeführt werden.[7][8] Für das Training von KI-Modellen sind besonders hohe Rechenleistungen erforderlich.
Speziell die Auslagerung der Bildverarbeitung in Grafikprozessoren (GPUs) gewann an Bedeutung und bildet oft die für KI-Aufgaben angepasste Lösung bei Supercomputern.[9] Auf Grund mehrjähriger Erfahrung mit GPUs für PCs mit einem Marktanteil von 80 Prozent im Jahr 2022[10] hat die Firma Nvidia besonders leistungsfähige Chip-Kombinationen von CPU und GPU für Großrechnersysteme entwickelt,[11] welche sehr gefragt sind.[12]
Google hat seit 2016 applikationsspezifische ICs (englisch ASICs) unter dem Namen Tensor-Processing-Units (TPUs) ursprünglich für die Softwaresammlung TensorFlow entworfen. TPUs wurden auch in AlphaGo-Wettkämpfen eingesetzt.[13] Inzwischen beruhen viele Google-Dienstleistungen auf deren weiterentwickelten TPU-Chips.
In Rechenzentren werden KI-Beschleuniger verwendet, um die Verarbeitung großer Datenmengen zu beschleunigen und komplexe KI-Modelle durch Maschinelles Lernen (ML) effizient zu trainieren. Intel hat dafür spezielle KI-Chips entwickelt. AMX ist ein integrierter Beschleuniger, der das Training und die Ergebnisse verbessert. KI-Aufgaben wie die Verarbeitung von natürlicher Sprache, Empfehlungssysteme und Bilderkennung können damit effizienter gelöst werden.[14]
Cloud-Anbieter wie Amazon-Webservices (AWS) bieten ebenfalls spezialisierte KI-Beschleuniger wie AMS Trainium an, die für das Training großer KI-Modelle wie zur natürlichen Sprachverarbeitung, Computer-Vision und für Empfehlungsmodelle optimiert sind. AWS Trainium ist der ML-Chip, den AWS speziell für Deep-Learning-Trainings von über 100 Milliarden Parameter entwickelt hat.[15]
Rechenzentren können durch den Einsatz von KI-Beschleunigern eine größere Anzahl von KI-Anwendungen gleichzeitig ausführen, was insbesondere bei multimodalen Modellen von Bedeutung ist.
KI-Beschleuniger in Benutzergeräten
[Bearbeiten | Quelltext bearbeiten]In mobilen Benutzergeräten, insbesondere bei Laptops und Smartphones, sind Leistung, Reaktionsgeschwindigkeit und Energieverbrauch von KI-Beschleunigungslösungen besonders wichtig. In solchen Geräten integrierte Neural Processing Units (NPUs) sind bei der Verarbeitung von KI-Algorithmen effizienter als CPUs und GPUs. NPUs können Bildverarbeitung für Fotoaufnahmen wie auch Gesichts- und Spracherkennung lokal rasch vornehmen. Dabei können heikle persönliche Daten im Benutzergerät bleiben und müssen nicht an Cloud-Server übertragen werden.[8] NPUs beschleunigen Sprachassistenten und könnten bei zunehmender Leistungsfähigkeit einfache Anfragen an Chatbots lokal beantworten und müssten die teuren und energiehungrigen Dienste von Cloud-Servern weniger in Anspruch nehmen.[16][17]
KI-Chips können mehrere Billionen Operationen pro Sekunde (englisch Trillion Operations per Second (TOPS)) durchführen.[18] Zum Beispiel erreicht 2024 die NPU des Apple-M4-Chips eine Geschwindigkeit von bis zu 38 TOPS. Die NPUs aus AMDs Ryzen-AI-300-Serie schaffen 2024 laut Hersteller bis zu 50 TOPS – das sind 50 Billionen Operationen pro Sekunde.[16] Solche Chips sind in Smartphones und Laptops vorhanden, so auch als Intel AI Boost in der Intel Meteor-Lake-Baureihe.
Alternative Ansätze
[Bearbeiten | Quelltext bearbeiten]Spiking Neural Networks
[Bearbeiten | Quelltext bearbeiten]Neuromorphe KI-Modelle unterscheiden sich von den vorherrschenden künstlichen neuronalen Netzen mit Deep-Learning-Struktur. Eine aktive Kopplung zwischen Neuronen wird ähnlich wie im menschlichen Gehirn nur durch elektronische Impulse (englisch: Spikes) ausgelöst, d. h. der Informationsfluss findet nur bei Eintreten bestimmter Bedingungen statt. Derartige Strukturen werden gepulste neuronale Netze (englisch: Spiking Neural Networks) genannt. Sie arbeiten ereignisgesteuert. Dies ist einer der Gründe, weshalb das Gehirn einen verhältnismäßig geringen Energieaufwand aufweist ebenso wie neuromorphe Prozessoren im Vergleich mit entsprechenden Deep-Learning-Processors.[19]
Der realisierte, neuromorphe, digitale Chip NorthPole von IBM Research beruht auch auf der Erkenntnis, dass rascher Speicherzugriff ebenso wichtig ist wie Datenverarbeitung. Ein verwandter IBM-Chip TrueNorth[20] überzeugt durch seine Kennwerte und verhält sich nach außen wie ein aktiver Speicherchip mit interner Verarbeitung.[21] Diese Chips sind nicht in Serie gefertigt geworden.
Combined Stencil and Tensor Accelerator
[Bearbeiten | Quelltext bearbeiten]Im Rahmen der European Processor Initiative[22], eines von der EU und anderen europäischen Ländern geförderten Projekts für High-Performance Computing, wurden neuartige Funktionskombinationen von Deep-Learning- und Stencil-Beschleunigern (STX) entwickelt und in Form integrierter Schaltungen (Chips) realisiert.[23]
Quantum Neural Network
[Bearbeiten | Quelltext bearbeiten]Ideen bestehen auch, um Quantencomputer für KI einzusetzen. Informationsverarbeitung würde anstatt klassischer Bits Quantenbits (Qubits) nutzen.[19][24] Quantum-neuronale Netze (QNN) werden erforscht, um bisherige Modelle künstlicher neuronaler Netze mit den Vorteilen der Quanteninformation zu kombinieren und so effizientere Algorithmen zu entwickeln.[25] Google hat im Dezember 2024 einen neuen, sehr leistungsfähigen Quantencomputer vorgestellt, welcher mit den selbst entwickelten Willow-Chips ausgerüstet ist.[26]
Weblinks
[Bearbeiten | Quelltext bearbeiten]Einzelnachweise
[Bearbeiten | Quelltext bearbeiten]- ↑ a b Was ist ein KI-Beschleuniger? ibm.com, abgerufen am 22. November 2024
- ↑ Saugata Ghose et al.: Processing-in-memory: A workload-driven perspective (PDF). IBM Journal of Research and Development, 63 (6), doi:10.1147/JRD.2019.2934048, August 2019, abgerufen am 24. November 2024 (englisch)
- ↑ What is ComputeRAM? synthara.ai, 2024, abgerufen am 4. Dezember 2024 (englisch)
- ↑ convolutional neural network demo from 1993 featuring DSP32 accelerator. In: YouTube. 2. Juni 2014, abgerufen am 21. November 2024 (englisch).
- ↑ Gschwind, M., Salapura, V., Maischberger, O.: Space Efficient Neural Net Implementation. Februar 1995, abgerufen am 25. November 2024 (englisch).
- ↑ Qualcomm Helps Make Your Mobile Devices Smarter With New Snapdragon Machine Learning Software Development Kit. In: Qualcomm. Abgerufen am 25. November 2024 (englisch).
- ↑ Der Wandel in Rechenzentren: KI-Chips und Beschleuniger auf dem Vormarsch. 28. September 2024, abgerufen am 25. November 2024
- ↑ a b Uddhav Gupta: CloudBlue: Das sind die Trends im Cloud-Computing 2024. cloudcomputing-insider.de, 18. Januar 2024, abgerufen am 25. November 2024.
- ↑ Was ist ein KI-Beschleuniger? isarsoft.com, 1. Juni 2024, abgerufen am 25. November 2024
- ↑ Anton Shilov: GPU Market Healthy and vibrant in Q2 2023: Report. 6. September 2023, abgerufen am 24. November 2024 (englisch).
- ↑ Datasheet: NVIDIA GH200 Grace Hopper Superchip. nvidia.com, abgerufen am 28. September 2024 nvidia.com, abgerufen am 25. November 2024 (englisch)
- ↑ Felix Holtermann, Joachim Hofer: Chiphersteller überholt Microsoft und ist wertvollster Konzern der Welt. In: Handelsblatt, 18. Juni 2024, abgerufen am 25. November 2024.
- ↑ Christof Windeck: Google I/O 2016: "Tensor-Prozessoren" halfen beim Go-Sieg – Heise online. In: heise.de. 19. Mai 2016, abgerufen am 25. November 2024.
- ↑ Intel Advanced Matrix Extensions (XMX). intel.de, abgerufen am 25. November 2024 (englisch)
- ↑ AWS Trainium. aws.amazon.com, abgerufen am 25. November 2024
- ↑ a b Till Striegel: NPU: Der KI-Beschleuniger im Prozessor erklärt. mediamarkt.de, 6. Juli 2024, abgerufen am 25. November 2024
- ↑ Tripp Mickle: Can Apple’s iPhones Pass the A.I. Test? In: New York Times, 9. September 2024, abgerufen am 25. November 2024 (englisch)
- ↑ Jan Werth: KI-Beschleuniger: Wenn »TOPS« in die Irre führen. elektroniknet.de, 23. Februar 2021, abgerufen am 25. November 2024
- ↑ a b Anna Schulte-Loosen: Spezialhardware für künstliche Intelligenz. Fraunhofer-Institut INT, September 2023, abgerufen am 25. November 2024
- ↑ Don Clark: Gehirn-Chip mit normaler Prozessor-Technik. Die Welt, 11. August 2014, abgerufen am 25. November 2024.
- ↑ DHARMENDRA S. MODHA et al.: Neural inference at the frontier of energy, space, and time. In: Science, Bd. 382, Heft 6668, S. 329–335, 19. Oktober 2023, abgerufen am 25. November 2024 (englisch)
- ↑ European Processor Initiative. eurohpc-ju.europa.eu, abgerufen am 4. Dezember 2024 (englisch)
- ↑ Accelerator Processor Stream. european-processor-initiative.eu, 2022, abgerufen am 4. Dezember 2024 (englisch)
- ↑ Maria Schuld et al.: The quest for a Quantum Neural Network. arXiv:1408.7005, 29. August 2014, abgerufen am 26. November 2024
- ↑ Massimo Panella, G. Martinelli: Neural networks with quantum architecture and quantum learning. In: International Journal of Circuit Theory and Applications. Jg. 39, Nr. 1. London 2011, S. 61–77, doi:10.1002/cta.619 (englisch).
- ↑ Cade Metz: Quantum Computing Inches Closer to Reality After Another Google Breakthrough. In: New York Times, 9. Dezember 2024, abgerufen am 9. Dezember 2024 (englisch)