NVIDIA Dynamo verbessert Streaming für agentische Workflows

Luisa Crawford 08.05.2026 16:34

NVIDIA Dynamo stellt neue Tools für schnellere und präzisere agentische Workflows vor und verbessert das Token-Streaming sowie die Verarbeitung von Tool-Calls.

NVIDIA Dynamo verbessert Streaming für agentische Workflows

NVIDIA hat bedeutende Updates für seine Dynamo-Plattform vorgestellt, die darauf abzielen, agentische Workflows mit verbessertem Streaming, Parsing und der Verarbeitung von Tool-Calls zu optimieren. Diese Updates konzentrieren sich auf die Verbesserung der Reaktionsfähigkeit und Genauigkeit von Anwendungen, die auf Mehrfachdialogen beruhen, wie etwa Coding-Assistenten und andere KI-gesteuerte Tools.

Einer der wichtigsten Neuerungen ist die Einführung des Streaming-Tool-Call-Dispatch. Diese neue Funktion ermöglicht es, Tool-Calls auszuführen, sobald sie dekodiert wurden, ohne auf den Abschluss des vollständigen Antwortdurchlaufs warten zu müssen. Diese Anpassung beschleunigt nicht nur die Zeit bis zum ersten Token (TTFT) für die Benutzer, sondern beseitigt auch Ineffizienzen in agentischen Workflows, bei denen Schlussfolgerungen und Tool-Antworten miteinander verwoben sind.

Leistungsgewinne durch Prompt-Stabilität

Eine zentrale Verbesserung betrifft die Prompt-Stabilität und die Wiederverwendung des KV-Cache. Durch die Eliminierung sitzungsspezifischer Präambeln, wie z. B. Anthropic-Abrechnungsheader, stellt Dynamo konsistente Token-Präfixe über Sitzungen hinweg sicher. Diese Änderung reduzierte den TTFT in NVIDIAs Tests um fast das Fünffache, von 912 ms auf 169 ms, auf einem System mit einem 52.000-Token-Prompt.

Für Entwickler ist die Aufrechterhaltung stabiler Präfixe entscheidend, wenn große, komplexe Prompts über mehrere Benutzersitzungen hinweg verarbeitet werden. Diese Optimierungen sind besonders wertvoll für agentische Modelle wie Claude Code und Codex, die präzise und wiederholbare Interaktionen erfordern, um effektiv zu funktionieren.

Verbessertes Parsing für komplexe Interaktionen

Dynamo hat auch seine Reasoning- und Tool-Call-Parser überarbeitet und in wiederverwendbare Module extrahiert. Dies ermöglicht es Entwicklern, eine bessere Übereinstimmung zwischen geparsten Ausgaben und Harness-Anforderungen zu erzielen. Die Updates beheben ein langjähriges Problem, bei dem frühere Schlussfolgerungen während Mehrfachdialogen entweder verworfen oder fehlerhaft dargestellt wurden. In agentischen Workflows, bei denen Schlussfolgerungen Tool-Call-Sequenzen erklären, ist die Beibehaltung strukturierter Schlussfolgerungen entscheidend.

Beispielsweise demonstrierte NVIDIA, wie sein Nemotron-3-Super-120B-Modell nun verschachtelte Schlussfolgerungen und Tool-Calls effektiver verarbeiten kann und sicherstellt, dass jedes Schlussfolgerungssegment korrekt mit der entsprechenden Tool-Aktion verknüpft bleibt. Dies verhindert Probleme, bei denen Schlussfolgerungen zuvor falsch gruppiert wurden, was zu verlorenem Kontext führte.

Streaming-Verhalten und Tool-Dispatch

Eine weitere wichtige Verbesserung ist die Möglichkeit, tokenisierte Antworten zu streamen und gleichzeitig Tool-Calls über einen Seitenkanal zu senden. Bisher wurden Tool-Calls bis zum Ende einer Antwort gepuffert, was die Ausführung verzögerte. Mit den neuen Inline-Streaming- und Dispatch-Funktionen werden Tool-Calls ausführbar, sobald sie geparst wurden, was die Reaktionsfähigkeit für Echtzeit-Anwendungen erheblich verbessert.

NVIDIA veranschaulichte dies mit einem Zeitlinievergleich, der zeigt, wie Dynamo Tool-Calls nun mitten in einer Antwort parst und streamt, was eine sofortige Ausführung ermöglicht. Dieses Redesign minimiert die Komplexität auf der Harness-Seite und gewährleistet eine nahtlose Integration mit benutzerdefinierten Systemen.

Verbesserte API-Konformität

Die Updates verbessern auch die Kompatibilität von Dynamo mit der Anthropic Messages API, einer wichtigen Schnittstelle für Tools wie Claude Code und OpenClaw. Zu den Korrekturen gehören die ordnungsgemäße Token-Zählung zu Beginn von Streams und die Möglichkeit, Modell-Metadaten-Endpunkte bereitzustellen, die beide Dynamo näher an die native Backend-Parität bringen.

Für Codex-Benutzer wurde auch die Kompatibilität mit OpenAIs Responses API verbessert. NVIDIA hat Felderhaltungsprobleme behoben, die während der internen Anforderungsverarbeitung auftraten, und stellt sicher, dass Codex-spezifische Funktionen wie Reasoning-Zusammenfassungen und Tool-Call-Kürzungen unterstützt werden, ohne die Leistung zu beeinträchtigen.

Ausblick

NVIDIA macht Teile von Dynamos Serving-Stack als modulare Komponenten verfügbar, einschließlich Protokoll-, Parser- und Tokenizer-Crates. Diese Modularität ermöglicht es Entwicklern, benutzerdefinierte Harnesses zu erstellen oder bestehende zu erweitern, ohne die Kernfunktionalität von Dynamo zu duplizieren.

Diese Updates positionieren Dynamo als führende Lösung für agentische Workloads und ermöglichen effizientere und präzisere Mehrfachdialoge in einer Vielzahl von Anwendungen. Für Entwickler und Unternehmen, die auf KI-gesteuerte Tools angewiesen sind, bieten diese Verbesserungen eine zuverlässigere und leistungsstarke Infrastruktur für Aufgaben wie Coding, Datenanalyse und mehr.

Bildquelle: Shutterstock

nvidia
ai tools
agentische workflows
token streaming

NVIDIA Dynamo Verbessert Streaming für Agentische Workflows

NVIDIA Dynamo verbessert Streaming für agentische Workflows

Leistungsgewinne durch Prompt-Stabilität

Verbessertes Parsing für komplexe Interaktionen

Streaming-Verhalten und Tool-Dispatch

Verbesserte API-Konformität

Ausblick

Das könnte Ihnen auch gefallen

Senat stimmt am 14.05. über Kryptowährung Gesetz zur Marktstruktur ab

Pi Network signalisiert einen wichtigen Web3-Identity-Durchbruch nach Consensus 2026

BTC/USDT Spot CVD Chart Analyse: Orderbuch-Einblicke vom 09.05.

Trendnachrichten

Bitcoin-Bullen brauchen noch ein Signal zur Bestätigung des Markttiefs – Details

Institutionelles Interesse an Krypto wächst, da Bitcoin-ETFs die 1-Milliarden-Dollar-Marke überschreiten

Pi Network-Gründer enthüllen kühne Vision für das KI-Zeitalter auf dem Consensus 2026

Zcash strebt bis 2027 eine quantensichere Zukunft an

Neuer Branchenleitfaden untersucht KI-Handelstrends und beliebte Krypto-Bot-Plattformen

24/7 Live-Nachrichten

Kryptopreise