NVIDIA, Vera

NVIDIA Vera Rubin: KI-Inferenz wird zehnmal günstiger

10.01.2026 - 21:02:12

NVIDIA kündigt die Supercomputer-Plattform Vera Rubin an, die KI-Inferenzleistung verfünffacht und die Kosten pro Token um das Zehnfache reduzieren soll. Verfügbarkeit ist für das zweite Halbjahr 2026 geplant.

NVIDIAs neue Supercomputer-Plattform „Vera Rubin“ soll die Kosten für KI-Anwendungen dramatisch senken und die Leistung verfünffachen. Das gab CEO Jensen Huang auf der CES in Las Vegas bekannt. Die Architektur ist bereits in Produktion und soll ab dem zweiten Halbjahr 2026 verfügbar sein. Der Schritt markiert den Übergang von reinen Trainings- zu leistungsfähigen „Reasoning“-KI-Systemen.

Sechs Chips in einem Supercomputer-Rack

Das Herzstück der Ankündigung ist das Vera Rubin NVL72, ein rackskaliges System, das als komplett integrierte Einheit arbeitet. Im Gegensatz zu modularen Vorgängergenerationen kombiniert es sechs spezielle Prozessoren zu einem einzigen Supercomputing-Engine.

Anker der Architektur sind der neue Rubin-GPU mit 288 GB HBM4-Speicher und der Vera-CPU mit 88 eigenen „Olympus“-Arm-Kernen. Verbunden werden sie durch den NVLink 6 Switch, der eine Bandbreite von bis zu 260 Terabyte pro Sekunde pro Rack ermöglicht. So agieren alle 72 GPUs eines Racks wie ein einziger riesiger Beschleuniger. Komplettiert wird das System durch den ConnectX-9 SuperNIC, den BlueField-4 DPU für Sicherheit und den Spectrum-6 Ethernet Switch.

Anzeige

Viele High-Performance-Rechenzentren setzen auf Linux – kein Wunder: 85% der Top-Supercomputer laufen auf Linux-Basis. Das kostenlose Linux-Startpaket liefert eine vollständige Ubuntu-Vollversion plus E-Mail-Ratgeber und zeigt Schritt für Schritt, wie Sie Linux parallel zu Windows testen oder ältere Server und Workloads stabil betreiben. Jetzt kostenloses Linux-Startpaket sichern

Wirtschaftlichkeit als Treiber der KI-Revolution

Hinter dem Technologiesprung steht eine wirtschaftliche Notwendigkeit. Die Kosten für „agentische“ KI-Workloads, bei denen Modelle schlussfolgern und handeln, sind exponentiell höher als für einfache Textgenerierung.

Hier setzt NVIDIA an: Die Vera-Rubin-Plattform verspricht eine Verfünffachung der Inferenz-Leistung im Vergleich zur Vorgängergeneration Blackwell. Noch entscheidender für Unternehmen: Die Kosten pro Inferenz-Token sollen um das Zehnfache sinken. Beim Training soll die Leistung um das 3,5-Fache steigen, was das Training großer Mixture-of-Experts-Modelle mit viermal weniger GPUs ermöglicht.

Das physische Design ist revolutionär: Das NVL72-Rack ist zu 100 Prozent flüssigkeitsgekühlt, benötigt also keine Lüfter. Dieses „lüfter-, schlauch- und kabellose“ Design senkt den Energieverbrauch und vereinfacht die Installation drastisch – von bisher zwei Stunden auf nur fünf Minuten.

Cloud-Giganten sichern sich die ersten Einheiten

Die großen Cloud-Anbieter stehen bereits Schlange. Amazon Web Services (AWS), Google Cloud, Microsoft Azure und CoreWeave haben bestätigt, ab Ende 2026 zu den ersten Betreibern zu gehören. Microsoft plans konkret, die NVL72-Racks in seine „Fairwater“-KI-Superfabriken zu integrieren.

NVIDIA nutzte die CES-Bühne zudem, um sein Engagement im Bereich „Physical AI“ auszubauen – also KI, die mit der realen Welt interagiert. Das Unternehmen stellte Alpamayo vor, eine Familie von Open-Source-Reasoning-Modellen für autonomes Fahren und Robotik. Partner wie Mercedes-Benz sollen diese künftig in Fahrzeugflotten nutzen. Ebenfalls neu ist Cosmos, eine plattform zur physikbasierten Videogenerierung für das Training von Robotern.

Strategie: NVIDIA verkauft ganze Rechenzentren

Die Enthüllung kommt zu einem kritischen Zeitpunkt. Der Wettbewerb im KI-Hardware-Sektor verschärft sich, wie ein aktueller Bericht von TechRadar zeigt. NVIDIAs neuer DGX SuperPOD auf Rubin-Basis soll dabei direkt mit Hochdichte-Clustern von Wettbewerbern wie Huawei konkurrieren.

Beobachter deuten den Launch als Bestätigung von NVIDIAs Strategie, ganze Rechenzentren statt nur einzelne Chips zu verkaufen. Durch die Kontrolle des gesamten Stacks – von der CPU bis zum Netzwerk-Switch – sichert sich das Unternehmen Leistungsvorteile, die Mitbewerber mit Komponentenlösungen kaum erreichen können. Der Wechsel zu HBM4-Speicher und eigenen Arm-Kernen unterstreicht diese Abhängigkeit von proprietärer Integration.

Ausblick: Eine neue Welle der KI-Innovation?

Da die Plattform nun in Serie geht, rücken Lieferkette und Zeitplan in den Fokus. Die breite Verfügbarkeit ist für das zweite Halbjahr 2026 geplant.

Die Auswirkungen auf die KI-Ökonomie sind enorm. Sinken die Inferenz-Kosten so stark, werden komplexe, agentenbasierte KI-Anwendungen wirtschaftlich tragfähig. Das könnte eine neue Welle der Software-Innovation auslösen. Gleichzeitig zwingt die extreme Leistungsdichte der flüssiggekühlten Racks Rechenzentren zu schnellen Upgrades ihrer Strom- und Kühlinfrastruktur. Wie Jensen Huang in seiner Keynote betonte, modernisiert die Branche gerade eine „10 Billionen Dollar schwere Recheninfrastruktur“. Die Vera-Rubin-Plattform ist nun der Bauplan für diese Transformation.

Anzeige

Übrigens: Die EU hat neue Regeln für KI-Systeme eingeführt, die Entwickler, Anbieter und Betreiber großer Modelle betreffen — von Kennzeichnungspflichten bis zu Dokumentationsanforderungen. Ein kostenloser Umsetzungsleitfaden erklärt, welche Pflichten gelten, wie Sie Ihr System richtig klassifizieren und welche Fristen zu beachten sind, damit Ihre KI-Projekte rechtskonform bleiben. KI-Verordnung-Umsetzungsleitfaden herunterladen

@ boerse-global.de