Blackwell ist der Name einer im Jahr 2024 von Nvidia vorgestellten Mikroarchitektur.
Sie stellt eine Weiterentwicklung von Hopper dar und wurde nach dem Mathematiker David Blackwell benannt. Das System ist dafür ausgelegt, Training und Inferencing von Large Language Models sowie die Performance komplexer Datenbankoperationen zu verbessern. NVIDIA gibt an, die Performance für Inferencing um das 30-fache erhöht und die Energieeffizienz um einen Faktor von bis zu 25 verbessert zu haben. Die Spitzenleistung eines GB200-Chips liegt bei 20 petaFLOPS. Für ein Board werden zwei GB200 GPUs mit einer Grace CPU kombiniert; Grace beinhaltet 144 Arm Neoverse CPU-Kerne.
Blackwell-Chips werden bei TSMC unter Anwendung des CoWoS-L Prozesses hergestellt.[1]
Es wurden folgende neue Funktionen und Technologien eingeführt:
Für die neue Blackwell GB200 GPU werden zwei Dies zu einem Chip verbunden. Dies ist nötig, da bereits jeder der beiden Dies die produktionstechnisch maximale Größe für eine Fotomaske ausnutzt. Eine GB 200 GPU hat mit 208 Milliarden Transistoren mehr als 2,5 mal so viele Transistoren wie Hopper hatte. Die Herstellung erfolgt auf Basis des 4NP-Prozesses von TSMC.
Die 5. Generation von NVLink ermöglicht eine Kommunikation von GPU zu GPU mit bis zu 1,8 TB/sec; dies ist doppelt so schnell wie die bei Hopper eingesetzte 4. Generation NVLink war. Bis zu 576 GPUs können damit verknüpft werden.
Der neue NV-Link Switch ermöglicht ein Switching mit einer Bandbreite von 14,4 TB/s.
Nvidia Confidential Computing ermöglicht eine sichere Kommunikation basierend auf einer hardwarebasierten Verschlüsselung.
Die neue Decompression Engine kann bis zu 800 GB/s entpacken, was im Zusammenwirken mit 8 Stapeln des schnellen HBM3e-Speichers und dem Hochleistungs-Bus-System, Datenbankabfragen und Analysen signifikant beschleunigt.
Die zweite Generation der Transformer-Engine ermöglicht eine verbesserte Performance bei Training und Inferencing von LLMs und Mixture-of-Experts-Modellen mit bis zu 10 Billionen Parametern. Zum Vergleich: GPT-4 hat 1,8 Billionen Parameter.[2]
Blackwells neue Gleitkommaeinheit unterstützt nun auch 6-Bit und 4-Bit-Datentypen, was das Training und Inferencing weiter beschleunigt.
Eine dedizierte RAS-Engine (Reliability, Availability and Servicabiltity) verfügt u. a. über tausende von Sensoren; damit sollen Fehler frühzeitig erkannt und eingegrenzt werden können, womit Ausfallzeiten minimiert werden.
Anfang Oktober 2024 wurden die ersten DGX B-200 Systeme an Microsoft und OpenAI ausgeliefert. Der Anlauf der Serienproduktion wurde durch Probleme bei der Fertigung verzögert[1] und fand im Oktober 2024 statt.[3][4] Zu diesem Zeitpunkt betrug die Wartezeit von Bestellung bis Auslieferung bereits 12 Monate.[5] Unter anderem Google und Meta hatten Blackwell-Bestellungen in Höhe von ~10 Mrd. $ aufgegeben.[1] Blackwells Nachfolgeplattform mit dem Namen Rubin wird für Anfang 2026 erwartet, Rubin Ultra für 2027.[6]
Anwendungen
Für den Einsatz in Rechenzentren ist das GB200 NVL72-Cluster entwickelt worden. Hierbei werden 36 GB200 Chips kombiniert. Eine Speichergröße von bis zu 13,5 TB kann angesprochen werden und die Daten mit bis zu 576 TB/s übertragen werden. Für das Jahr 2025 wurde eine verbesserte Version mit dem Namen Blackwell Ultra angekündigt.[7] Anstelle von 8 Stapeln HBM3e-Speicher kommen hier 12 Stapel zum Einsatz.
Grafikkarten auf Basis der Blackwell-Architektur wurden mit der RTX 50xx-Serie Anfang 2025 vorgestellt.[8] Wesentlicher Unterschied zur RTX 40xx-Generation ist, dass es mit Deep Learning Super Sampling 4.0 nun möglich ist, mehrere aufeinanderfolgende Pixel KI-basiert zu interpolieren.
Ebenfalls auf Basis von Blackwell wird NVIDIA AGX Thor in künftiger Hardware für autonomes Fahren, wie auch bei der Robotik zum Einsatz kommen.[9] Darüber hinaus gibt es mit DIGITS auch einen kompakten Desktop-PC auf Basis von Blackwell.[10]