Inference bezeichnet die produktive Ausführung eines bereits trainierten KI-Modells – also den Moment, in dem eine Anfrage in eine Antwort übersetzt wird. Im Unterschied zum Training, das einmalig und rechenintensiv ist, läuft Inference millionenfach pro Tag und bestimmt die operativen Kosten einer KI-Anwendung.
Inference-Optimierung – etwa durch Quantization, Speculative Decoding, Batching oder Caching – kann die Kosten um 80 % und die Latenz deutlich senken. Für Self-Hosting kommen Runtimes wie vLLM, TGI (Hugging Face), Ollama oder llama.cpp zum Einsatz.
Bei produktiven KI-Anwendungen mit klaren SLA- und Kostenzielen begleiten wir den Aufbau im Rahmen unserer KI-Dienstleistungen.