PANews a rapporté le 21 mars que Tether a annoncé la sortie d'un framework de fine-tuning LoRA BitNet cross-platform dans QVAC Fabric, permettant des optimisations pour l'entraînement et l'inférence de Microsoft BitNet (1-bit LLM). Ce framework réduit considérablement les besoins en puissance de calcul et en mémoire, permettant aux modèles à milliards de paramètres d'être entraînés et affinés sur des ordinateurs portables, des GPU grand public et des smartphones.
Cette solution est la première à permettre le fine-tuning du modèle BitNet sur des GPU mobiles (y compris Adreno, Mali et Apple Bionic). Les tests montrent qu'un modèle de 125M paramètres peut être affiné en environ 10 minutes, un modèle de 1B en environ 1 heure, et il peut même être étendu à un modèle de 13B paramètres sur des appareils mobiles.

De plus, le framework prend en charge du matériel hétérogène tel qu'Intel, AMD et Apple Silicon, et réalise pour la première fois le fine-tuning LoRA de LLM 1-bit sur des appareils non-NVIDIA. En termes de performances, le modèle BitNet atteint des vitesses d'inférence de 2 à 11 fois plus rapides sur des GPU mobiles que sur des CPU, tout en réduisant l'utilisation de la mémoire jusqu'à environ 77,8 % par rapport aux modèles traditionnels 16-bit.
Tether a déclaré que cette technologie a le potentiel de briser la dépendance à la puissance de calcul haut de gamme et à l'infrastructure cloud, de promouvoir le développement de l'entraînement IA vers la décentralisation et la localisation, et de fournir une base pour de nouveaux scénarios d'application tels que l'apprentissage fédéré.


