Llama 4 MoE: что архитектура Meta меняет для команд на self-hosted-инфраструктуре

Релиз Llama 4 продолжил курс Meta на mixture-of-experts. Сравнение с DeepSeek-V3 показывает близкие результаты на бенчмарках при разных компромиссах по требованиям к VRAM. Что это значит для команд, выбирающих open-weight-стек.

Архитектура mixture-of-experts перестала быть экспериментом и становится мейнстримом open-weight-моделей. Llama 4, опубликованная Meta в апреле 2026, и DeepSeek-V3, доминирующая в открытом сегменте с конца 2024 года, представляют два разных компромисса в одной и той же идее: вместо роста плотной модели — распределение знаний по большому набору специализированных подсетей, из которых на каждом токене активируется лишь малая часть.

Для команд, строящих self-hosted-инфраструктуру, выбор между этими подходами уже не теоретический. От него зависит конфигурация серверов, бюджет на GPU и распределение задач по моделям. Разберём, что именно отличает два самых заметных open-weight-релиза года.

Архитектурные различия

Llama 4 представлена в двух конфигурациях: 109B total parameters с 17B активных и 400B total с 17B активных. DeepSeek-V3 — 671B total с 37B активных. Ключевая разница не в общем размере, а в гранулярности маршрутизации: у Llama 4 — 128 экспертов с активацией двух на токен, у DeepSeek-V3 — 256 экспертов с активацией восьми.

Это даёт два разных профиля. Llama 4 проще обслуживать инференс-движкам: меньше переключений между экспертами, меньше нагрузка на all-to-all-коммуникацию между GPU. DeepSeek-V3 в теории выигрывает в качестве за счёт более тонкой специализации экспертов, но требует более тщательной настройки балансировки нагрузки.

Требования к железу

На практике это выливается в разные пороги входа. Llama 4 109B в FP16 умещается на двух H100 при использовании tensor parallelism. DeepSeek-V3 требует минимум четырёх H100, и даже с квантизацией до 4 бит — двух H200 или восьми L40S.

Для команд, у которых уже есть кластер из двух H100, Llama 4 109B становится default-выбором. Для команд, рассматривающих развёртывание с нуля, расчёт сложнее: разница в качестве между моделями на стандартных бенчмарках укладывается в 2-3 пункта, и она не оправдывает кратной разницы в стоимости железа на большинстве workloads.

Бенчмарки и реальные сценарии

На MMLU-Pro Llama 4 400B набирает 71,4%, DeepSeek-V3 — 73,2%. На HumanEval — 89,1% против 90,3%. На SWE-bench Lite — 33,6% против 38,9%. DeepSeek-V3 системно опережает Llama 4 на задачах с reasoning и code, Llama 4 ближе на задачах с естественным языком и instruction following.

На бенчмарках длинного контекста разрыв заметнее. Llama 4 поддерживает 256K окно, DeepSeek-V3 — 128K. На задачах RULER-128K оба укладываются в 80-85% точности, но за пределами этого окна Llama 4 деградирует быстрее. Это парадоксально: больший формальный лимит контекста у Llama 4 не означает большего эффективного контекста.

Что выбрать в 2026 году

Для большинства команд, начинающих с open-weight-моделей, имеет смысл базовый выбор: Llama 4 109B как универсальная рабочая лошадка, дообученная под собственные задачи; DeepSeek-V3 — для специфических сценариев coding и reasoning, где разница в качестве оправдывает инфраструктурную сложность; SmolLM3 или Qwen-2.5-7B — для лёгких задач извлечения и классификации.

Эра, в которой одна open-weight-модель закрывала все потребности, заканчивается. Команды, серьёзно строящие на self-hosted-стеке, переходят к каскадным архитектурам с маршрутизацией запросов между моделями разной мощности. Это требует другой инженерной зрелости, но даёт заметный выигрыш в стоимости инференса при сохранении качества на верхней границе.

Llama 4 MoE: что архитектура Meta меняет для команд на self-hosted-инфраструктуре

Архитектурные различия

Требования к железу

Бенчмарки и реальные сценарии

Что выбрать в 2026 году

Связанное

Anthropic выпустила Claude Opus 4.7: что меняется для разработчиков и команд

Yandex GPT 5 Pro: открытое тестирование и расширение API

OpenAI обновила GPT-5o: голос и зрение в реальном времени, новый ценовой тир