Google анонсировала новую технологию сжатия под названием TurboQuant, предназначенную для снижения потребления памяти в больших языковых моделях без ухудшения качества работы.
Снижение нагрузки на память
Основной проблемой при работе LLM остается использование key-value cache, в котором хранится контекст диалога. По мере увеличения длины взаимодействия этот кэш быстро растет, что приводит к увеличению потребления памяти и энергозатрат.
TurboQuant нацелен именно на этот узкий участок. В тестах технология позволила уменьшить объем памяти, необходимый для работы моделей, как минимум в шесть раз без потери точности.
Дополнительно отмечается ускорение вычислений: в отдельных сценариях производительность возрастает до восьми раз, особенно при расчете attention-метрик на GPU.
Подход к сжатию данных
В основе TurboQuant лежит векторная квантизация. Технология объединяет несколько алгоритмов, включая PolarQuant и Quantized Johnson-Lindenstrauss.
PolarQuant преобразует векторы данных в полярную систему координат, что упрощает их структуру и позволяет эффективнее применять квантизацию без дополнительных нормализаций.
Для компенсации ошибок используется Quantized Johnson-Lindenstrauss. Этот механизм применяет одноразрядную коррекцию, уменьшая искажения и устраняя смещение при вычислении attention.
В результате удается минимизировать накладные расходы, которые обычно возникают при классических методах сжатия, где требуется хранение дополнительных параметров.
Практические результаты
По данным Google, TurboQuant не требует дополнительного обучения или дообучения моделей и может применяться на этапе инференса.
Технология тестировалась на различных моделях, включая Gemma и Mistral, где показала сопоставимые или лучшие результаты по сравнению с существующими методами сжатия.
Также отмечается улучшение эффективности в задачах векторного поиска и работе с длинным контекстом.
Потенциальные применения
Снижение требований к памяти позволяет запускать более крупные модели или обрабатывать более длинные контексты на том же оборудовании.
Это также открывает возможность более широкого использования ИИ на устройствах с ограниченными ресурсами, включая ноутбуки и смартфоны, а также снижает стоимость инфраструктуры для компаний.
Источник: TechSpot