NVIDIA stellt Vera Rubin POD 40-Rack-KI-Supercomputer für agentische Workloads vor

Iris Coleman 16.03.2026 19:48

NVIDIA kündigt Vera Rubin POD mit 1.152 GPUs über 40 Racks an, der 60 Exaflops liefert und eine 10-mal bessere Inferenzleistung pro Watt als Blackwell bietet.

NVIDIA stellt Vera Rubin POD 40-Rack-KI-Supercomputer für agentische Workloads vor

NVIDIA hat gerade die Spezifikationen für sein bisher ehrgeizigstes KI-Infrastrukturprojekt veröffentlicht. Der Vera Rubin POD enthält 1.152 Rubin-GPUs über 40 Racks und liefert 60 Exaflops Rechenleistung sowie 10 Petabyte pro Sekunde Gesamtbandbreite für Scale-up. Produktionseinheiten werden in der zweiten Hälfte von 2026 ausgeliefert.

Die Zahlen hier sind überwältigend: 1,2 Billiarden Transistoren, fast 20.000 NVIDIA-Dies, alle so konstruiert, dass sie als ein einziger kohärenter Supercomputer funktionieren. NVIDIA behauptet eine 4-mal bessere Trainingsleistung und 10-mal bessere Inferenzleistung pro Watt im Vergleich zu seiner aktuellen Blackwell-Architektur – wobei die Token-Kosten auf ein Zehntel des aktuellen Niveaus sinken.

Fünf speziell entwickelte Rack-Systeme

Der POD kombiniert fünf verschiedene Rack-Scale-Systeme, die jeweils spezifische Engpässe in modernen KI-Workloads adressieren:

Vera Rubin NVL72 dient als zentrale Recheneinheit. Jedes Rack integriert 72 Rubin-GPUs und 36 Vera-CPUs, die über NVLink 6 verbunden sind, was 3,6 TB/s Bandbreite pro GPU ermöglicht – mehr Gesamtbandbreite als das gesamte globale Internet, so NVIDIA. Das System zielt auf alle vier KI-Skalierungsgesetze ab: Pretraining, Post-Training, Test-Time-Scaling und agentisches Scaling.

Groq 3 LPX-Racks lösen das Latenzproblem. Mit 256 Sprachverarbeitungseinheiten pro Rack unter Verwendung einer reinen SRAM-Architektur werden diese mit NVL72 gepaart, um laut NVIDIA 35-mal mehr Token und 10-mal mehr Umsatzchancen für Billionen-Parameter-Modelle im Vergleich zu Blackwell zu liefern.

Vera CPU-Racks bieten Sandbox-Umgebungen für Agententests. Ein einzelnes Rack unterstützt über 22.500 gleichzeitige Reinforcement-Learning-Umgebungen – entscheidend für die Validierung agentischer KI-Ausgaben vor der Bereitstellung.

BlueField-4 STX-Racks führen das ein, was NVIDIA als „KI-nativen Speicher" bezeichnet, über die CMX Context Memory Platform. Durch das Auslagern von KV-Cache auf dedizierten Hochbandbreitenspeicher behauptet das System 5-mal höhere Token pro Sekunde und 5-mal bessere Energieeffizienz als traditionelle Ansätze.

Spectrum-6 SPX-Netzwerk-Racks verbinden alles mit 102,4 Tb/s-Switches mit co-packaged Optics.

Das Token-Ökonomie-Argument

NVIDIA rahmt dies um eine spezifische Marktrealität: Der Token-Verbrauch übersteigt jetzt jährlich 10 Billiarden, und die Verschiebung von Mensch-KI- zu KI-KI-Interaktionen wird dieses Wachstum dramatisch beschleunigen. Moderne agentische Systeme erzeugen massive Reasoning-Token-Volumina und erweitern gleichzeitig die KV-Cache-Anforderungen – genau der Engpass, den diese Architektur adressiert.

Von NVIDIA zitierte Drittanbieter-SemiAnalysis InferenceMax-Benchmarks zeigen, dass aktuelle Blackwell-Systeme bereits 50-mal bessere Leistung pro Watt und 35-mal niedrigere Kosten pro Token im Vergleich zu H200 liefern. Vera Rubin zielt darauf ab, diesen Vorsprung zu erweitern.

Thermisches und Energie-Engineering

Die dritte Generation der MGX-Rack-Architektur führt Intelligent Power Smoothing mit 6-mal mehr Energiespeicherung auf Rack-Ebene (400 Joule pro GPU) als frühere Generationen ein. Dies reduziert Spitzenstromanforderungen um bis zu 25 % und eliminiert den Bedarf an massiven Batteriepacks.

Alle Racks arbeiten bei 45 °C Warmwasser-Einlasstemperaturen, was es Rechenzentren in vielen Klimazonen ermöglicht, Umgebungsluftkühlung zu verwenden. NVIDIA behauptet, dass dies genug Strom freisetzt, um 10 % mehr Racks im selben Anlagenleistungsbudget hinzuzufügen.

Ausblick

Über die anfängliche POD-Konfiguration hinaus hat NVIDIA eine Vorschau auf Vera Rubin Ultra NVL576 gegeben, der auf 576 GPUs über acht Racks skaliert, sowie die nächste Generation der Kyber-Architektur, die NVL1152 mit 144 GPUs pro Rack anstrebt. Die Roadmap deutet darauf hin, dass NVIDIA Multi-Rack-NVLink-Domänen als die Zukunft der KI-Infrastruktur sieht – nicht nur größere GPUs, sondern grundlegend unterschiedliche Systemarchitekturen.

Für Unternehmen, die KI-Infrastrukturinvestitionen planen, ist die Botschaft klar: Die Ökonomie des KI-Computing verlagert sich von der Chip-Ebene zur Facility-Level-Optimierung. Diejenigen, die jetzt Rechenzentren aufbauen, stehen vor der Wahl zwischen aktuellen Systemen und dem Warten auf die Verfügbarkeit von Vera Rubin Ende 2026.

Bildquelle: Shutterstock