Тег

#tgi

vLLM, TGI, SGLang: бенчмарки инференс-движков на H100 и A100

Производительность инференс-фреймворков перестала быть второстепенной деталью — она напрямую определяет TCO self-hosted-моделей. Сравнение throughput и поддержки FP8 на популярных конфигурациях GPU.

8 мая 3 мин