ai-benchmark/tests/summarization/https___uproger.com_nvidia-kvzap-zhmem-kv-kesh-v-4-raza-vse-lyubyat-dlinnyj-kontekst-no-dlya-gpu-eto-b_.txt

3 lines
6.9 KiB
Plaintext
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

NVIDIA KVzap: жмем KV-кэш в 4 раза.Все любят длинный контекст, но для GPU это б… 18.01.2026 Машинное обучение 🌟 NVIDIA KVzap: жмем KV-кэш в 4 раза. Все любят длинный контекст, но для GPU это больно KV-кэш растет линейно и быстро сжирает VRAM. Например, для Llama-65B на 128k токенов кэш весит 335 ГБ. Существующие методы прунинга либо медленные, либо тупые и режут важное, либо требуют переобучения модели. NVIDIA предложили метод KVzap, который решает, какие токены можно забыть, глядя только на текущие хидден-стэйты. 🟡Логика метода разбита на 2 этапа: Поиск идеала (KVzip+). Берется медленный, но точный метод KVzip: модели скармливают текст, заставляют его повторить, и смотрят, на какие прошлые токены она реально обращает внимание. Это золотой стандарт важности токена. Но в проде так делать нельзя, это двойная работа. Аппроксимация (KVzap). Тут и происходит вся суть: крошечная модель-суррогат смотрит на входящий хидден-стэйт токена и предсказывает, насколько этот токен будет важен в будущем, то есть пытается угадать скор KVzip. Модели 2-х видов: KVzap-Linear: простейшая линейная проекция (одна матрица). Она берет хиден-стэйт и тупо проецирует его в скалярный скор важности. Сложность: экстремально низкая (~0.02%). KVzap-MLP: двухслойный перцептрон. Внутри есть скрытый слой размером 1/8 от размерности модели и нелинейная активация. Сложность: низкая, но выше линейной (~1.1%). 🟡Все вместе это работает так Токен залетает в слой трансформера, модель-суррогат быстро считает его скор важности. Если он ниже порога токен в кэш не пишется или удаляется. Но при этом всегда оставляется скользящее окно из последних 128 токенов, чтобы не терять локальный контекст, иначе модель сыпется. 🟡Результаты тестов. Проверяли на Qwen3-8B, Llama-3.1-8B и Qwen3-32B. Спойлер: работает везде. Удалось выкинуть до 75% KV-кэша, а это сжатие в 4 раза. На бенчмарках RULER (длинный контекст), LongBench и AIME25 падение метрик или нулевое, или меньше 1%. Оверхед от суррогатной модели мизерный менее 1% FLOPs. 🟡Звучит, конечно, как гем, но давайте про минусы: 🟠Нужно дообучить этот маленький MLP для каждого слоя целевой модели. Датасет нужен, но процесс быстрый. 🟠Удаление токенов создает рваный кэш. У разных голов будет разное количество сохраненных токенов. Это плохо, потому что стандартные ядра Paged Attention любят структуру. Чтобы реально получить ускорение, а не только экономию памяти, нужно писать кастомные CUDA-ядра, которые смогут эффективно жевать блоки переменной длины. 🟠Порог отсечения фиксированный. Если промахнуться с ним, то модель начнет галлюцинировать или забудет начало. 🟡По итогу, KVzap крутой шаг к тому, чтобы гонять длинные контексты на GPU попроще. Метод умнее, чем Streaming LLM, и быстрее, чем полные методы разреженного внимания. Ждем интеграции в vLLM или TRT-LLM, а пока, чтобы скрасить ожидание, NVIDIA собрала на HF интерактивный лидерборд популярных методик компрессии KV-кэша. Код и веса моделей-суррогатов из тестов пейпера в открытом доступе, так что нет никаких ограничений, чтобы не покрутить KVzap на каком-нибудь тестовом сетапе. @ai_machinelearning_big_data #AI #ML #LLM #KVZAP #NVIDIA View Source +1 0 +1 0 +1 0 +1 0 +1 0 Просмотры: 12 0 Google: проблема дата-центров уже не в “купить электричество”. Проблема подкл… 20.01.2026 🤖 Лучшие GitHub-репозитории, чтобы выучить AI с нуля в 2026 16.01.2026 CEO Cursor заявил, что они скоординировали сотни GPT-5.2 агентов, чтобы автоном… 15.01.2026
==============
NVIDIA KVzap представляет новый метод оптимизации KV-кэша для GPU, позволяющий значительно уменьшить его размер. Метод использует небольшую модель-суррогат, которая оценивает важность каждого токена в текущем контексте на основе скрытого состояния. Существуют две реализации: линейная и MLP, отличающиеся сложностью и точностью. Результаты экспериментов на моделях Qwen3-8B, Llama-3.1-8B и Qwen3-32B показали эффективность метода, позволяющего сжимать KV-кэш до 75% при минимальном влиянии на производительность. Несмотря на преимущества, метод имеет некоторые недостатки, такие как необходимость дообучения модели-суррогата и потенциальные проблемы с структурой кэша.