KV-Cache-Quantisierung mit TurboQuant

Abstract

Während die Quantisierung von Modellgewichten zum Sparen von Speicherplatz Normalität ist, war das starke Verkleinern des KV-Cache bisher eher exotisch. Ein Beitrag von Google hat das Thema nun in den Mainstream gerückt.

  • Der KV-Cache, der Berechnungen in LLMs beschleunigt, wird bei langen Kontexten zu einem Speicherfresser.
  • Während Quantisierung der Modellgewichte auf 4 Bit längst Standard ist, beschränken Inferenz-Engines wie vLLM den KV-Cache bislang meist auf 8 Bit, da Ausreißer in den Keys zu Genauigkeitsverlusten führen.
  • Die Forschung kennt mit KVQuant und KIVI bereits seit 2024 Verfahren, die den KV-Cache stark quantisieren. Google versucht nun dem eigenen Verfahren TurboQuant Bekanntheit zu verschaffen.
  • Parallel gewinnen hardwaregestützte 4-Bit-Gleitkommaformate wie NVFP4 und MXFP4 auf Blackwell- und AMD-Instinct-GPUs an Bedeutung.

  • mehr

    Mehr zum Titel

    Titel KV-Cache-Quantisierung mit TurboQuant
    Medien iX - Magazin für professionelle IT
    Heft 06
    Band 2026
    Verfasser Prof. Dr. René Peinl
    Seiten S. 108
    Veröffentlichungsdatum 01.06.2026
    Zitation Peinl, René (2026): KV-Cache-Quantisierung mit TurboQuant . iX - Magazin für professionelle IT 2026 (06), S. 108.