Zum Inhalt springen
OIT Menü – Preview mit KI & DEV
/ Home / Glossar / KI / Quantization

Quantization

Quantization (Quantisierung) ist ein Kompressionsverfahren, bei dem die Gewichte eines neuronalen Netzes mit weniger Bits gespeichert werden – statt 16 oder 32 Bit pro Zahl zum Beispiel nur 8 oder 4 Bit. Ergebnis: das Modell wird deutlich kleiner und schneller, bei meist nur minimalem Qualitätsverlust.

Dadurch laufen Modelle, die sonst GPUs mit viel VRAM benötigen, auf kleinerer Hardware oder sogar direkt auf dem Laptop (Ollama, LM Studio). Für On-Premise- und Edge-Szenarien ist Quantization oft der Schlüssel zur Wirtschaftlichkeit.

Bei der Wahl passender Quantisierungs-Strategien und dem Betrieb lokaler Modelle unterstützen wir euch im Rahmen unserer KI-Leistungen.