NVIDIA Dynamo verbessert Streaming für agentische Workflows
Luisa Crawford 08.05.2026 16:34
NVIDIA Dynamo stellt neue Tools für schnellere und präzisere agentische Workflows vor und verbessert das Token-Streaming sowie die Verarbeitung von Tool-Calls.
NVIDIA hat bedeutende Updates für seine Dynamo-Plattform vorgestellt, die darauf abzielen, agentische Workflows mit verbessertem Streaming, Parsing und der Verarbeitung von Tool-Calls zu optimieren. Diese Updates konzentrieren sich auf die Verbesserung der Reaktionsfähigkeit und Genauigkeit von Anwendungen, die auf Mehrfachdialogen beruhen, wie etwa Coding-Assistenten und andere KI-gesteuerte Tools.
Einer der wichtigsten Neuerungen ist die Einführung des Streaming-Tool-Call-Dispatch. Diese neue Funktion ermöglicht es, Tool-Calls auszuführen, sobald sie dekodiert wurden, ohne auf den Abschluss des vollständigen Antwortdurchlaufs warten zu müssen. Diese Anpassung beschleunigt nicht nur die Zeit bis zum ersten Token (TTFT) für die Benutzer, sondern beseitigt auch Ineffizienzen in agentischen Workflows, bei denen Schlussfolgerungen und Tool-Antworten miteinander verwoben sind.
Leistungsgewinne durch Prompt-Stabilität
Eine zentrale Verbesserung betrifft die Prompt-Stabilität und die Wiederverwendung des KV-Cache. Durch die Eliminierung sitzungsspezifischer Präambeln, wie z. B. Anthropic-Abrechnungsheader, stellt Dynamo konsistente Token-Präfixe über Sitzungen hinweg sicher. Diese Änderung reduzierte den TTFT in NVIDIAs Tests um fast das Fünffache, von 912 ms auf 169 ms, auf einem System mit einem 52.000-Token-Prompt.
Für Entwickler ist die Aufrechterhaltung stabiler Präfixe entscheidend, wenn große, komplexe Prompts über mehrere Benutzersitzungen hinweg verarbeitet werden. Diese Optimierungen sind besonders wertvoll für agentische Modelle wie Claude Code und Codex, die präzise und wiederholbare Interaktionen erfordern, um effektiv zu funktionieren.
Verbessertes Parsing für komplexe Interaktionen
Dynamo hat auch seine Reasoning- und Tool-Call-Parser überarbeitet und in wiederverwendbare Module extrahiert. Dies ermöglicht es Entwicklern, eine bessere Übereinstimmung zwischen geparsten Ausgaben und Harness-Anforderungen zu erzielen. Die Updates beheben ein langjähriges Problem, bei dem frühere Schlussfolgerungen während Mehrfachdialogen entweder verworfen oder fehlerhaft dargestellt wurden. In agentischen Workflows, bei denen Schlussfolgerungen Tool-Call-Sequenzen erklären, ist die Beibehaltung strukturierter Schlussfolgerungen entscheidend.
Beispielsweise demonstrierte NVIDIA, wie sein Nemotron-3-Super-120B-Modell nun verschachtelte Schlussfolgerungen und Tool-Calls effektiver verarbeiten kann und sicherstellt, dass jedes Schlussfolgerungssegment korrekt mit der entsprechenden Tool-Aktion verknüpft bleibt. Dies verhindert Probleme, bei denen Schlussfolgerungen zuvor falsch gruppiert wurden, was zu verlorenem Kontext führte.
Streaming-Verhalten und Tool-Dispatch
Eine weitere wichtige Verbesserung ist die Möglichkeit, tokenisierte Antworten zu streamen und gleichzeitig Tool-Calls über einen Seitenkanal zu senden. Bisher wurden Tool-Calls bis zum Ende einer Antwort gepuffert, was die Ausführung verzögerte. Mit den neuen Inline-Streaming- und Dispatch-Funktionen werden Tool-Calls ausführbar, sobald sie geparst wurden, was die Reaktionsfähigkeit für Echtzeit-Anwendungen erheblich verbessert.
NVIDIA veranschaulichte dies mit einem Zeitlinievergleich, der zeigt, wie Dynamo Tool-Calls nun mitten in einer Antwort parst und streamt, was eine sofortige Ausführung ermöglicht. Dieses Redesign minimiert die Komplexität auf der Harness-Seite und gewährleistet eine nahtlose Integration mit benutzerdefinierten Systemen.
Verbesserte API-Konformität
Die Updates verbessern auch die Kompatibilität von Dynamo mit der Anthropic Messages API, einer wichtigen Schnittstelle für Tools wie Claude Code und OpenClaw. Zu den Korrekturen gehören die ordnungsgemäße Token-Zählung zu Beginn von Streams und die Möglichkeit, Modell-Metadaten-Endpunkte bereitzustellen, die beide Dynamo näher an die native Backend-Parität bringen.
Für Codex-Benutzer wurde auch die Kompatibilität mit OpenAIs Responses API verbessert. NVIDIA hat Felderhaltungsprobleme behoben, die während der internen Anforderungsverarbeitung auftraten, und stellt sicher, dass Codex-spezifische Funktionen wie Reasoning-Zusammenfassungen und Tool-Call-Kürzungen unterstützt werden, ohne die Leistung zu beeinträchtigen.
Ausblick
NVIDIA macht Teile von Dynamos Serving-Stack als modulare Komponenten verfügbar, einschließlich Protokoll-, Parser- und Tokenizer-Crates. Diese Modularität ermöglicht es Entwicklern, benutzerdefinierte Harnesses zu erstellen oder bestehende zu erweitern, ohne die Kernfunktionalität von Dynamo zu duplizieren.
Diese Updates positionieren Dynamo als führende Lösung für agentische Workloads und ermöglichen effizientere und präzisere Mehrfachdialoge in einer Vielzahl von Anwendungen. Für Entwickler und Unternehmen, die auf KI-gesteuerte Tools angewiesen sind, bieten diese Verbesserungen eine zuverlässigere und leistungsstarke Infrastruktur für Aufgaben wie Coding, Datenanalyse und mehr.
Bildquelle: Shutterstock- nvidia
- ai tools
- agentische workflows
- token streaming







