Коротко
- Google заявив, що його алгоритм TurboQuant може зменшити основне вузьке місце пам'яті ШІ щонайменше у шість разів без втрати точності під час виведення.
- Акції компаній пам'яті, включаючи Micron, Western Digital та Seagate, впали після поширення статті.
- Метод стискає пам'ять виведення, а не ваги моделі, і був протестований лише на дослідницьких тестах.
Google Research опублікував TurboQuant у середу — алгоритм стиснення, який зменшує основне вузьке місце пам'яті виведення щонайменше у 6 разів, зберігаючи нульову втрату точності.
Стаття запланована для презентації на ICLR 2026, і реакція в Інтернеті була миттєвою.
Генеральний директор Cloudflare Метью Прінс назвав це моментом DeepSeek для Google. Ціни акцій компаній пам'яті, включаючи Micron, Western Digital та Seagate, впали того ж дня.
Отже, це реально?
Ефективність квантування сама по собі є великим досягненням. Але «нульова втрата точності» потребує контексту.
TurboQuant націлений на KV-кеш — частину пам'яті GPU, яка зберігає все, що мовна модель повинна пам'ятати під час розмови.
Оскільки контекстні вікна зростають до мільйонів токенів, ці кеші роздуваються до сотень гігабайтів на сеанс. Це справжнє вузьке місце. Не обчислювальна потужність, а необроблена пам'ять.
Традиційні методи стиснення намагаються зменшити ці кеші шляхом округлення чисел — наприклад, від 32-бітних чисел з плаваючою комою до 16, до 8, до 4-бітних цілих чисел. Щоб краще це зрозуміти, подумайте про зменшення зображення з 4K до Full HD, до 720p тощо. Легко сказати, що в цілому це те саме зображення, але в роздільній здатності 4K більше деталей.
Загвоздка: вони повинні зберігати додаткові «константи квантування» поряд зі стиснутими даними, щоб модель не стала нерозумною. Ці константи додають від 1 до 2 бітів на значення, частково знищуючи переваги.
TurboQuant стверджує, що повністю усуває це навантаження.
Це робиться за допомогою двох підалгоритмів. PolarQuant відокремлює величину від напрямку у векторах, а QJL (Квантований Джонсон-Лінденштраус) бере невелику залишкову помилку, що залишилася, і зменшує її до одного знакового біта, позитивного чи негативного, з нульовими збереженими константами.
Результатом, за словами Google, є математично незміщена оцінка для розрахунків уваги, які керують моделями-трансформерами.
У тестах з використанням Gemma та Mistral, TurboQuant відповідав повнопрецизійній продуктивності при 4-кратному стисненні, включаючи ідеальну точність пошуку в завданнях «голка в копиці стога» до 104 000 токенів.
Для контексту того, чому ці тести мають значення, розширення придатного контексту моделі без втрати якості було однією з найскладніших проблем у розгортанні LLM.
Тепер дрібний шрифт.
«Нульова втрата точності» стосується стиснення KV-кешу під час виведення — а не ваг моделі. Стиснення ваг — це зовсім інша, складніша проблема. TurboQuant їх не зачіпає.
Те, що він стискає, це тимчасова пам'ять, яка зберігає обчислення уваги в середині сеансу, що є більш прощаючим, оскільки ці дані теоретично можуть бути відновлені.
Існує також розрив між чистим тестом і виробничою системою, що обслуговує мільярди запитів. TurboQuant був протестований на моделях з відкритим вихідним кодом — Gemma, Mistral, Llama — а не на власному стеку Gemini Google у масштабі.
На відміну від покращення ефективності DeepSeek, яке вимагало глибоких архітектурних рішень з самого початку, TurboQuant не вимагає повторного навчання чи тонкого налаштування і стверджує про незначне навантаження під час виконання. Теоретично він потрапляє прямо в існуючі конвеєри виведення.
Це та частина, яка налякала сектор апаратного забезпечення пам'яті — тому що якщо це працює у виробництві, кожна велика лабораторія ШІ працює економніше на тих самих GPU, які вони вже мають.
Стаття йде на ICLR 2026. Поки вона не буде запущена у виробництво, заголовок «нульові втрати» залишається в лабораторії.
Щоденна розсилка новин
Починайте кожен день з головних новин прямо зараз, плюс оригінальні статті, подкаст, відео та багато іншого.
Джерело: https://decrypt.co/362384/google-shrinks-ai-memory-no-accuracy-loss

