Inferência

Técnicas de otimização de inferência — quantização GPTQ, GGUF e AWQ, decodificação especulativa, gerenciamento KV-cache, otimização de throughput VRAM e frameworks de serving como vLLM e TGI.

Recomendado