KV-Cache-Quantisierung mit TurboQuant

Abstract

Während die Quantisierung von Modellgewichten zum Sparen von Speicherplatz Normalität ist, war das starke Verkleinern des KV-Cache bisher eher exotisch. Ein Beitrag von Google hat das Thema nun in den Mainstream gerückt.

Der KV-Cache, der Berechnungen in LLMs beschleunigt, wird bei langen Kontexten zu einem Speicherfresser.

Während Quantisierung der Modellgewichte auf 4 Bit längst Standard ist, beschränken Inferenz-Engines wie vLLM den KV-Cache bislang meist auf 8 Bit, da Ausreißer in den Keys zu Genauigkeitsverlusten führen.

Die Forschung kennt mit KVQuant und KIVI bereits seit 2024 Verfahren, die den KV-Cache stark quantisieren. Google versucht nun dem eigenen Verfahren TurboQuant Bekanntheit zu verschaffen.

Parallel gewinnen hardwaregestützte 4-Bit-Gleitkommaformate wie NVFP4 und MXFP4 auf Blackwell- und AMD-Instinct-GPUs an Bedeutung.

mehr

Mehr zum Titel

Titel	KV-Cache-Quantisierung mit TurboQuant
Medien	iX - Magazin für professionelle IT
Heft	06
Band	2026
Verfasser	Prof. Dr. René Peinl
Seiten	S. 108
Veröffentlichungsdatum	01.06.2026
Zitation	Peinl, René (2026): KV-Cache-Quantisierung mit TurboQuant . iX - Magazin für professionelle IT 2026 (06), S. 108.