Inferencia

Técnicas de optimización de inferencia — cuantización GPTQ, GGUF y AWQ, decodificación especulativa, gestión de KV-cache, optimización de throughput VRAM y frameworks como vLLM y TGI.

Recomendado