vLLM, TGI, SGLang: бенчмарки инференс-движков на H100 и A100
Производительность инференс-фреймворков перестала быть второстепенной деталью — она напрямую определяет TCO self-hosted-моделей. Сравнение throughput и поддержки FP8 на популярных конфигурациях GPU.