BitcoinWorld
Le travail ingrat de l'entraînement des robots : XDOF lève 70 M$ pour construire les pipelines de données dont les laboratoires d'IA ont désespérément besoin
Il y a deux semaines, OpenAI a annoncé qu'il relancerait son programme de robotique, abandonné en 2021 — dernier signe en date que les plus grands laboratoires d'IA sont en course pour apprendre aux machines à opérer dans le monde physique. Mais construire des robots capables requiert quelque chose que l'industrie de l'IA ne possède pas encore à grande échelle : les données d'entraînement équivalentes à celles qui alimentent les modèles de langage. Ce manque est en train de créer un nouveau type d'activité d'infrastructure.
Contrairement aux grands modèles de langage entraînés sur une vaste mer de textes publiquement disponibles, les robots ont besoin de données qui capturent les interactions physiques — et ce type de données existe à peine. Les vidéos YouTube et les images captées par des travailleurs à la tâche sont de faible qualité et difficiles à réconcilier avec le monde physique. Voici XDOF (prononcé « ecks-doff »), une startup qui sort de la confidentialité aujourd'hui et qui parie que le prochain grand goulot d'étranglement de l'IA n'est pas les modèles ni les puces, mais la boucle de rétroaction de données nécessaire pour apprendre aux robots à interagir avec le monde physique.
XDOF vise à construire les pipelines de données, les outils de collecte et les systèmes d'annotation que les laboratoires de pointe et les entreprises de robotique ne peuvent pas facilement développer eux-mêmes. La société a levé 70 millions de dollars auprès de Thrive Capital, Spark Capital, a16z, Lux et WndrCo pour y parvenir. Le co-fondateur et PDG Philippe Wu indique que XDOF, qui compte environ 60 employés, travaille déjà avec 20 clients, dont plusieurs laboratoires d'IA de pointe, bien qu'il ne puisse pas les nommer.
« Tous les meilleurs laboratoires cherchent à se lancer dans la robotique », a déclaré Wu lors d'un entretien. « Nous avons déjà vu certains des inconvénients de prendre un peu de retard dans la course aux modèles de langage… vous ne voulez pas vous retrouver dans cette situation où vous poursuivez cette technologie trop tard, et tout le monde est dans le même bateau où l'IA physique est la prochaine frontière. »
Wu s'est lui-même heurté à ce problème en tant qu'étudiant en doctorat à l'UC Berkeley, où il se concentrait sur la manière de permettre aux robots d'apprendre des compétences à partir de grands ensembles de données. Il n'y avait qu'un seul problème. « Nous n'avions pas de données à grande échelle avec lesquelles travailler », a-t-il dit. « Il y avait ce problème de l'œuf et de la poule — nous devions d'abord collecter des données avant même de pouvoir nous demander comment entraîner un modèle de fondation pour la robotique. »
Wu et son futur co-fondateur de XDOF et Directeur de la technologie (CTO), Fred Shentu, ont travaillé sur un projet appelé GELLO, un système de télé-opération à faible coût qui permet à un opérateur humain de contrôler un bras robotique pour générer des données d'entraînement. « Cela a fini par devenir un article très influent en robotique, car beaucoup de personnes avaient des besoins et des goulots d'étranglement similaires, et beaucoup ont commencé à exploiter ce type de dispositif pour la collecte de données », a déclaré Wu.
Voyant l'opportunité, Wu, Shentu et le troisième co-fondateur et directeur des opérations Nemo Jin ont lancé XDOF en octobre 2024 pour fournir un écosystème de données aux entreprises qui développent des modèles de robotique. Conscients que la seule fourniture de données peut être une activité sans issue, la société se concentre également sur le nettoyage des données, l'outillage et l'annotation — créant une boucle de rétroaction auto-renforçante pour les entraîneurs de robots.
Pour commencer, la société s'associe au laboratoire de recherche en IA de l'UC Berkeley pour publier ce qu'elle considère comme la plus grande collection de données d'entraînement de robots de haute qualité jamais assemblée, baptisée ABC. Elle comprend 130 000 trajectoires de données de manipulation de robots, 300 heures de simulation et 100 heures d'évaluations. Ce type de données de pré-entraînement à grande échelle n'a jamais été disponible pour le monde académique auparavant.
« Nous avons vu dans le langage, la génération d'images et d'autres domaines que lorsque des modèles et des données sont publiés, la communauté accomplit des choses que vous n'auriez pas nécessairement anticipées », a déclaré David McAllister, un étudiant en doctorat à Berkeley qui a aidé à organiser la publication, à Bitcoin World. L'équipe a déjà utilisé les données pour entraîner des robots sur des tâches de référence comme plier des t-shirts, aplatir des boîtes et charger des AirPods dans leurs étuis.
La société prévoit de travailler sur trois niveaux d'une pyramide de données. Le niveau le plus précieux est celui des données de télé-opération collectées sur le robot réel en cours de déploiement ; vient ensuite la collecte de données plus générales par des robots téléopérés, comme avec GELLO ; et enfin les données « égocentriques » recueillies par des humains effectuant des tâches quotidiennes, pour lesquelles XDOF prévoit de construire ses propres capteurs portables.
« Le choix de votre caméra va affecter la qualité de vos données — ce qui va affecter les performances de votre algorithme de suivi de la main », a déclaré Wu. « Si vous ne concevez pas bien le matériel dès le départ, les données que vous collectez pourraient avoir des problèmes très spécifiques que vous n'avez pas anticipés. »
La société prévoit d'embaucher et de former des armées de téléopérateurs et d'opérateurs de données égocentriques dans le monde entier — un modèle à forte intensité de main-d'œuvre qui soulève une question évidente : pourquoi les grands laboratoires ne font-ils pas ce travail de production de données eux-mêmes ?
« Vous avez besoin d'un entrepôt de centaines de milliers de mètres carrés avec des centaines de robots », a déclaré Wu. « Vous devez entretenir ces robots, calibrer leurs paramètres physiques et former correctement les opérateurs. » C'est un développement qui nécessite concentration, capital et échelle opérationnelle que la plupart des laboratoires d'IA préfèrent externaliser — ce qui est précisément le marché sur lequel XDOF mise.
L'émergence de XDOF signale un changement plus large dans le paysage de l'IA. Alors que les laboratoires de pointe s'élancent vers l'IA physique — des robots capables d'opérer dans des environnements humains non structurés — le goulot d'étranglement des données devient aussi critique que la puissance de calcul ou l'architecture des modèles. Les entreprises capables de fournir des données d'entraînement fiables et de haute qualité pour les interactions physiques se positionnent comme des fournisseurs d'infrastructure essentiels.
Le nom XDOF est un jeu de mots sur le terme de robotique « degrés de liberté », qui décrit le nombre de mouvements indépendants qu'un robot peut effectuer. Votre bras, de l'épaule au poignet, a sept degrés de liberté. Le dernier robot de la société de robotique humanoïde Figure.AI en a 30. Le X dans le nom de la société capture son ambition : « Degrés de liberté arbitraires, degrés de liberté illimités », dit Wu.
La levée de fonds de 70 millions de dollars de XDOF et son annonce de sortie de la confidentialité soulignent une reconnaissance croissante dans l'industrie de l'IA : le chemin vers une IA physique capable passe par l'infrastructure de données, et pas seulement par de meilleurs modèles. À mesure que davantage de laboratoires suivent l'exemple d'OpenAI en relançant leurs programmes de robotique, la demande de données d'entraînement de haute qualité, ancrées dans le monde physique, ne fera qu'augmenter. XDOF se positionne au cœur de cette demande, construisant les pipelines qui pourraient déterminer quelles entreprises réussiront dans la course à la construction de robots capables de fonctionner réellement dans le monde réel.
Q1 : Qu'est-ce que XDOF et que fait-il ?
XDOF est une startup qui construit des pipelines de données, des outils de collecte et des systèmes d'annotation pour l'entraînement des robots. Elle fournit les données d'entraînement du monde physique dont les laboratoires d'IA ont besoin pour apprendre aux robots à interagir avec leur environnement.
Q2 : En quoi les données d'entraînement des robots diffèrent-elles des données d'entraînement des modèles de langage ?
Les modèles de langage peuvent être entraînés sur de vastes quantités de texte disponibles sur Internet. Les données d'entraînement des robots doivent capturer des interactions physiques — comme saisir des objets ou plier des vêtements — ce qui nécessite des méthodes de collecte spécialisées comme la télé-opération ou les capteurs portables.
Q3 : Quel est le montant du Financement levé par XDOF et qui sont les investisseurs ?
XDOF a levé 70 millions de dollars auprès de Thrive Capital, Spark Capital, a16z, Lux et WndrCo. La société compte environ 60 employés et travaille déjà avec 20 clients, dont plusieurs laboratoires d'IA de pointe.
Cet article Le travail ingrat de l'entraînement des robots : XDOF lève 70 M$ pour construire les pipelines de données dont les laboratoires d'IA ont désespérément besoin est apparu en premier sur BitcoinWorld.


