SkyRL dodaje obsługę RL wizyjno-językowego dla modeli multimodalnych
Joerg Hiller 24 kwi 2026 16:33
SkyRL wprowadza uczenie ze wzmocnieniem w zakresie wizji i języka, umożliwiając skalowalne szkolenie dla zadań multimodalnych. Dowiedz się, jak wpływa to na rozwój AI.
SkyRL, biblioteka uczenia ze wzmocnieniem (RL) opracowana przez Sky Computing Lab UC Berkeley i Anyscale, ogłosiła wsparcie dla treningu po wstępnym (post-training) modeli wizyjno-językowych (VLM). Ta aktualizacja umożliwia zespołom trenowanie modeli multimodalnych przy użyciu nadzorowanego dostrajania (SFT) i przepływów pracy RL, odpowiadając na rosnące zapotrzebowanie na modele zdolne do jednoczesnego przetwarzania danych wizualnych i tekstowych.
Obciążenia multimodalne, takie jak zadania z zakresu wizji komputerowej, robotyki i rozumowania agentycznego, wymagają od modeli przetwarzania danych wizualnych, podejmowania działań i adaptacji na podstawie informacji zwrotnych. Nowa funkcjonalność SkyRL sprawia, że modele VLM stają się pełnoprawnym elementem jego stosu treningowego, dostarczając narzędzi do skalowania treningu na lokalnych GPU lub klastrach wielowęzłowych. Opiera się to na istniejącej infrastrukturze SkyRL, która już obsługuje złożone zadania agentyczne, takie jak benchmarki inżynierii oprogramowania i generowanie Text-to-SQL.
Kluczowe funkcje aktualizacji
Jednym z głównych wyzwań w RL dla zadań wizyjno-językowych jest utrzymanie spójności między treningiem a inferencją. SkyRL rozwiązuje problem dryftu logarytmu prawdopodobieństwa — powszechnego przy przetwarzaniu danych wizualnych — poprzez wprowadzenie zdezagregowanego potoku. Używając stosu inferencji vLLM jako źródła prawdy, platforma zapewnia spójność tokenizacji i przygotowania danych wejściowych we wszystkich przepływach pracy.
To podejście nie tylko stabilizuje trening, ale także umożliwia niezależne skalowanie pracowników CPU do przetwarzania danych wejściowych, zapewniając, że przepustowość GPU nie jest wąskim gardłem. Aktualizacja obsługuje również gotowe przepisy dla zadań takich jak nawigacja Maze2D i Geometry-3k, zbiór danych wymagający wizualnego rozumowania geometrycznego. Wczesne wyniki wykazały poprawę stabilności treningu nawet dla większych rozmiarów modeli, takich jak Qwen3-VL 8B Instruct.
Implikacje dla rozwoju AI
SkyRL pozycjonuje się jako preferowana platforma dla skalowalnego RL i SFT w trenowaniu modeli multimodalnych. Poprzez integrację z narzędziami takimi jak Tinker API, użytkownicy mogą wdrażać przepływy pracy RL we własnej infrastrukturze, zmniejszając zależność od zewnętrznych dostawców. Jest to szczególnie istotne biorąc pod uwagę rosnące wymagania obliczeniowe związane z trenowaniem dużych modeli.
Te postępy pojawiają się w czasie, gdy multimodalne systemy AI są bardzo poszukiwane w zastosowaniach rzeczywistych. Zadania wymagające sekwencyjnego podejmowania decyzji, wizualnego rozumowania i adaptacyjności — takie jak autonomiczna nawigacja i dynamiczna interakcja z narzędziami — mogą znacznie skorzystać. Modułowa konstrukcja SkyRL obsługuje również szybkie prototypowanie, umożliwiając badaczom i programistom eksperymentowanie z nowymi algorytmami i paradygmatami treningu.
Perspektywy na przyszłość
Plan działania SkyRL obejmuje funkcje takie jak pakowanie sekwencji, obsługa backendu Megatron i trening długiego kontekstu z równoległością kontekstu. Oczekuje się, że te ulepszenia jeszcze bardziej wzmocnią jego możliwości w zakresie obsługi złożonych obciążeń agentycznych. Dla programistów chcących zagłębić się w trening VLM, SkyRL oferuje samouczki i dokumentację ułatwiające rozpoczęcie pracy.
Ponieważ branża AI coraz częściej włącza systemy multimodalne do praktycznych zastosowań, zdolność do efektywnego trenowania i dostrajania takich modeli będzie kluczowym wyróżnikiem. Najnowsza aktualizacja SkyRL odzwierciedla jego zaangażowanie w pozostawanie na czele tej ewolucji, zapewniając skalowalną i modułową platformę dla najnowocześniejszych badań RL i wdrożeń.
Źródło obrazu: Shutterstock- skyrl
- uczenie ze wzmocnieniem
- modele wizyjno-językowe
- trening ai








