HuggingFace выпустил SmolLM3: 3B-модель уровня 7B-класса

Дистилляция и пересборка тренировочного корпуса дали результат, опередивший Mistral 7B на восьми из десяти задач MMLU-Pro. Что стоит за этим скачком и почему это важно для команд, работающих на edge-устройствах.

20 мая HuggingFace опубликовала SmolLM3 — open-weight-модель на 3 миллиарда параметров, лицензированную под Apache 2.0. По заявлению команды, на восьми из десяти задач бенчмарка MMLU-Pro модель опережает Mistral 7B, выпущенный годом ранее, и подбирается вплотную к Llama 3.1 8B при втрое меньшем числе параметров.

Это третья итерация линейки SmolLM, начатой в 2024 году. Если первая версия позиционировалась как образовательный проект по показу применимости тренировки на curated-корпусах, то SmolLM3 — это уже инфраструктурная модель, рассчитанная на коммерческое развёртывание в сценариях с жёсткими ограничениями по памяти.

Что стоит за приростом качества

Команда указывает на два фактора. Первый — knowledge distillation от учительской модели Qwen2.5-72B, при которой студент обучается воспроизводить распределение вероятностей учителя, а не только финальные ответы. Это даёт более плотный обучающий сигнал по сравнению с классическим supervised-fine-tuning.

Второй — полная пересборка претрейн-корпуса. HuggingFace построила новый датасет SmolLM-Mix-3, в котором академические тексты, code, мультиязычный веб-крал и инструктивные данные смешаны в пропорции, оптимизированной по результатам контролируемых экспериментов на меньших масштабах. По данным компании, замена корпуса дала больше +4 пунктов на MMLU-Pro, чем все архитектурные правки вместе взятые.

Третий фактор, обычно остающийся в тени отчётов — оптимизация на reasoning-задачах. Около 8% претрейн-токенов составляют синтетические цепочки рассуждений, сгенерированные более крупными моделями и отфильтрованные верификатором. Это техника, аналогичная подходу DeepSeek-R1, но адаптированная под малую модель.

Где это полезно

Главные сценарии применения SmolLM3 — это задачи, где низкая стоимость инференса и возможность локального запуска важнее абсолютного качества:

Edge-устройства и мобильные приложения, где модель должна помещаться в 4 ГБ оперативной памяти после квантизации.
Классификация и извлечение структурированных данных из текста, где SmolLM3 уже даёт качество, достаточное для продакшена при стоимости в 10-15 раз ниже API-моделей.
Базовый компонент в каскадных архитектурах, где SmolLM3 фильтрует входы, а более тяжёлая модель вызывается только на сложных случаях.

На задачах, требующих сложного reasoning или работы с длинным контекстом, SmolLM3 ожидаемо уступает крупным моделям. Контекстное окно — 32K токенов, что заметно меньше актуального стандарта в 128K-500K.

Что это значит для рынка малых моделей

SmolLM3 продолжает тенденцию, заметную с начала 2026 года: разрыв между моделями на 2-4 миллиарда параметров и моделями в 7-13 миллиардов сокращается быстрее, чем разрыв между топовыми закрытыми моделями. Для команд, строящих продукты на edge, это означает, что верхняя планка возможного качества при ограниченных ресурсах продолжает подниматься без увеличения требований к железу.

HuggingFace одновременно с моделью опубликовала полный rectified-pipeline тренировки, включая код, конфигурацию и скрипты подготовки данных. Это редкий случай полной воспроизводимости релиза в индустрии, где даже open-weight-релизы обычно сопровождаются лишь общей документацией.

По мотивам: HuggingFace blog, SmolLM3 model card.

HuggingFace выпустил SmolLM3: 3B-модель уровня 7B-класса

Что стоит за приростом качества

Где это полезно

Что это значит для рынка малых моделей

Связанное

Anthropic выпустила Claude Opus 4.7: что меняется для разработчиков и команд

Yandex GPT 5 Pro: открытое тестирование и расширение API

OpenAI обновила GPT-5o: голос и зрение в реальном времени, новый ценовой тир