Google представила TurboQuant: снижение памяти LLM в 6 раз без потери точности
Google представила TurboQuant - алгоритм сжатия, который уменьшает использование памяти LLM в шесть раз без потери точности. Технология также ускоряет вычисления и снижает требования к инфраструктуре.