Публікація Google Shrinks AI Memory With No Accuracy Loss—But There's a Catch з'явилася на BitcoinEthereumNews.com. Коротко кажучи, Google заявила, що її алгоритм TurboQuant можеПублікація Google Shrinks AI Memory With No Accuracy Loss—But There's a Catch з'явилася на BitcoinEthereumNews.com. Коротко кажучи, Google заявила, що її алгоритм TurboQuant може

Google скорочує пам'ять ШІ без втрати точності — але є застереження

2026/03/26 07:33
3 хв читання
Якщо у вас є відгуки або зауваження щодо цього контенту, будь ласка, зв’яжіться з нами за адресою crypto.news@mexc.com

Коротко

  • Google заявив, що його алгоритм TurboQuant може зменшити основне вузьке місце пам'яті ШІ щонайменше у шість разів без втрати точності під час виведення.
  • Акції компаній пам'яті, включаючи Micron, Western Digital та Seagate, впали після поширення статті.
  • Метод стискає пам'ять виведення, а не ваги моделі, і був протестований лише на дослідницьких тестах.

Google Research опублікував TurboQuant у середу — алгоритм стиснення, який зменшує основне вузьке місце пам'яті виведення щонайменше у 6 разів, зберігаючи нульову втрату точності.

Стаття запланована для презентації на ICLR 2026, і реакція в Інтернеті була миттєвою.

Генеральний директор Cloudflare Метью Прінс назвав це моментом DeepSeek для Google. Ціни акцій компаній пам'яті, включаючи Micron, Western Digital та Seagate, впали того ж дня.

Отже, це реально?

Ефективність квантування сама по собі є великим досягненням. Але «нульова втрата точності» потребує контексту.

TurboQuant націлений на KV-кеш — частину пам'яті GPU, яка зберігає все, що мовна модель повинна пам'ятати під час розмови.

Оскільки контекстні вікна зростають до мільйонів токенів, ці кеші роздуваються до сотень гігабайтів на сеанс. Це справжнє вузьке місце. Не обчислювальна потужність, а необроблена пам'ять.

Традиційні методи стиснення намагаються зменшити ці кеші шляхом округлення чисел — наприклад, від 32-бітних чисел з плаваючою комою до 16, до 8, до 4-бітних цілих чисел. Щоб краще це зрозуміти, подумайте про зменшення зображення з 4K до Full HD, до 720p тощо. Легко сказати, що в цілому це те саме зображення, але в роздільній здатності 4K більше деталей.

Загвоздка: вони повинні зберігати додаткові «константи квантування» поряд зі стиснутими даними, щоб модель не стала нерозумною. Ці константи додають від 1 до 2 бітів на значення, частково знищуючи переваги.

TurboQuant стверджує, що повністю усуває це навантаження.

Це робиться за допомогою двох підалгоритмів. PolarQuant відокремлює величину від напрямку у векторах, а QJL (Квантований Джонсон-Лінденштраус) бере невелику залишкову помилку, що залишилася, і зменшує її до одного знакового біта, позитивного чи негативного, з нульовими збереженими константами.

Результатом, за словами Google, є математично незміщена оцінка для розрахунків уваги, які керують моделями-трансформерами.

У тестах з використанням Gemma та Mistral, TurboQuant відповідав повнопрецизійній продуктивності при 4-кратному стисненні, включаючи ідеальну точність пошуку в завданнях «голка в копиці стога» до 104 000 токенів.

Для контексту того, чому ці тести мають значення, розширення придатного контексту моделі без втрати якості було однією з найскладніших проблем у розгортанні LLM.

Тепер дрібний шрифт.

«Нульова втрата точності» стосується стиснення KV-кешу під час виведення — а не ваг моделі. Стиснення ваг — це зовсім інша, складніша проблема. TurboQuant їх не зачіпає.

Те, що він стискає, це тимчасова пам'ять, яка зберігає обчислення уваги в середині сеансу, що є більш прощаючим, оскільки ці дані теоретично можуть бути відновлені.

Існує також розрив між чистим тестом і виробничою системою, що обслуговує мільярди запитів. TurboQuant був протестований на моделях з відкритим вихідним кодом — Gemma, Mistral, Llama — а не на власному стеку Gemini Google у масштабі.

На відміну від покращення ефективності DeepSeek, яке вимагало глибоких архітектурних рішень з самого початку, TurboQuant не вимагає повторного навчання чи тонкого налаштування і стверджує про незначне навантаження під час виконання. Теоретично він потрапляє прямо в існуючі конвеєри виведення.

Це та частина, яка налякала сектор апаратного забезпечення пам'яті — тому що якщо це працює у виробництві, кожна велика лабораторія ШІ працює економніше на тих самих GPU, які вони вже мають.

Стаття йде на ICLR 2026. Поки вона не буде запущена у виробництво, заголовок «нульові втрати» залишається в лабораторії.

Щоденна розсилка новин

Починайте кожен день з головних новин прямо зараз, плюс оригінальні статті, подкаст, відео та багато іншого.

Джерело: https://decrypt.co/362384/google-shrinks-ai-memory-no-accuracy-loss

Ринкові можливості
Логотип Major
Курс Major (MAJOR)
$0.06532
$0.06532$0.06532
+0.44%
USD
Графік ціни Major (MAJOR) в реальному часі
Відмова від відповідальності: статті, опубліковані на цьому сайті, взяті з відкритих джерел і надаються виключно для інформаційних цілей. Вони не обов'язково відображають погляди MEXC. Всі права залишаються за авторами оригінальних статей. Якщо ви вважаєте, що будь-який контент порушує права третіх осіб, будь ласка, зверніться за адресою crypto.news@mexc.com для його видалення. MEXC не дає жодних гарантій щодо точності, повноти або своєчасності вмісту і не несе відповідальності за будь-які дії, вчинені на основі наданої інформації. Вміст не є фінансовою, юридичною або іншою професійною порадою і не повинен розглядатися як рекомендація або схвалення з боку MEXC.

Вам також може сподобатися

Придбання Mastercard компанії BVNK об'єднає криптовалютні та фіатні платежі

Придбання Mastercard компанії BVNK об'єднає криптовалютні та фіатні платежі

Публікація про те, як придбання BVNK компанією Mastercard об'єднає платежі у криптовалюті та фіатній валюті, з'явилася на BitcoinEthereumNews.com. Аналітики Mizuho охарактеризували
Поділитись
BitcoinEthereumNews2026/03/26 08:03
Наступна криптовалюта, яка вибухне, оскільки CME відкриває цілодобові ф'ючерси, а передпродаж Pepeto перевищує $8 млн

Наступна криптовалюта, яка вибухне, оскільки CME відкриває цілодобові ф'ючерси, а передпродаж Pepeto перевищує $8 млн

Найбільшою силою Bitcoin завжди була безпека, але швидкість і прибутковість за поточних цін — це те, з чим він бореться. Саме це і пропонують інструменти обміну Pepeto
Поділитись
Techbullion2026/03/26 07:49
Ймовірність утримання ставки ФРС досягає 94,8% на засіданні FOMC у квітні 2026 року

Ймовірність утримання ставки ФРС досягає 94,8% на засіданні FOMC у квітні 2026 року

Пост «Імовірність утримання ставки ФРС досягає 94,8% на засіданні FOMC у квітні 2026 року» з'явився на BitcoinEthereumNews.com. Інструмент CME FedWatch Tool тепер показує імовірність 94,8%
Поділитись
BitcoinEthereumNews2026/03/26 06:57