Google представила TurboQuant: снижение памяти LLM в 6 раз без потери точности

Google анонсировала новую технологию сжатия под названием TurboQuant, предназначенную для снижения потребления памяти в больших языковых моделях без ухудшения качества работы.

Снижение нагрузки на память

Основной проблемой при работе LLM остается использование key-value cache, в котором хранится контекст диалога. По мере увеличения длины взаимодействия этот кэш быстро растет, что приводит к увеличению потребления памяти и энергозатрат.

TurboQuant нацелен именно на этот узкий участок. В тестах технология позволила уменьшить объем памяти, необходимый для работы моделей, как минимум в шесть раз без потери точности.

Дополнительно отмечается ускорение вычислений: в отдельных сценариях производительность возрастает до восьми раз, особенно при расчете attention-метрик на GPU.

Подход к сжатию данных

В основе TurboQuant лежит векторная квантизация. Технология объединяет несколько алгоритмов, включая PolarQuant и Quantized Johnson-Lindenstrauss.

PolarQuant преобразует векторы данных в полярную систему координат, что упрощает их структуру и позволяет эффективнее применять квантизацию без дополнительных нормализаций.

Для компенсации ошибок используется Quantized Johnson-Lindenstrauss. Этот механизм применяет одноразрядную коррекцию, уменьшая искажения и устраняя смещение при вычислении attention.

В результате удается минимизировать накладные расходы, которые обычно возникают при классических методах сжатия, где требуется хранение дополнительных параметров.

Практические результаты

По данным Google, TurboQuant не требует дополнительного обучения или дообучения моделей и может применяться на этапе инференса.

Технология тестировалась на различных моделях, включая Gemma и Mistral, где показала сопоставимые или лучшие результаты по сравнению с существующими методами сжатия.

Также отмечается улучшение эффективности в задачах векторного поиска и работе с длинным контекстом.

Потенциальные применения

Снижение требований к памяти позволяет запускать более крупные модели или обрабатывать более длинные контексты на том же оборудовании.

Это также открывает возможность более широкого использования ИИ на устройствах с ограниченными ресурсами, включая ноутбуки и смартфоны, а также снижает стоимость инфраструктуры для компаний.

Источник: TechSpot

Комментарии (0)

Войдите, чтобы оставить комментарий

Похожие статьи

Технологии и IT-новости 3 недели назад

Батареи научились потеть: новая мембрана охлаждает их как кожа млекопитающих

Учёные разработали мембрану, вдохновлённую кожей млекопитающих, которая охлаждает литий-ионные батареи за счёт потоотделения. Технология работает без электричества и может значительно увеличить срок службы аккумуляторов.

AI 2 месяца назад

Мы не сделали ИИ умнее — мы стали думать меньше

Статья о том, как повседневное использование искусственного интеллекта влияет на мышление человека. Почему ИИ создаёт иллюзию интеллектуального прогресса и чем опасна утрата самостоятельного мышления.

Discord глобально вводит проверку возраста: что изменится

Discord с марта 2026 года запускает по всему миру обязательную систему подтверждения возраста. Новые подростковые настройки ограничивают доступ к взрослому контенту, и пользователи могут пройти проверку через модель, видео-selfie или ID.

AI 1 месяц назад

Google представляет Project Genie 3: ИИ, который генерирует виртуальные миры

Google запустила Project Genie 3: экспериментальный ИИ-инструмент, который превращает текстовые запросы и изображения в интерактивные трехмерные миры. Новый прототип доступен подписчикам Google AI Ultra в США, а технология основана на модели Genie 3 от DeepMind.