Inference-time scaling: что говорят кривые reasoning-моделей и сколько это стоит

Reasoning-режимы у o1, Claude и Gemini подняли качество за счёт затрат на инференс. Анализируем кривые «компьют против качества» и оцениваем, когда такие модели экономически оправданы.

Если последние пять лет в LLM-сообществе доминировал нарратив pre-training scaling — «больше параметров, больше данных, больше FLOP-ов в обучении дают лучшую модель», то 2025-2026 годы открывают второй фронт: inference-time scaling. Идея проста: модель выигрывает от выделения большего количества вычислений на сам момент рассуждения, а не только на тренировку.

Что такое reasoning-режим

Reasoning-режим — это вариант работы LLM, при котором перед финальным ответом модель генерирует длинную цепочку внутренних рассуждений. Эти рассуждения могут быть видимы пользователю или скрыты (внутри API-абстракции), но они расходуют compute и время. На задачах, требующих сложного логического или математического вывода, такая модель даёт значительно лучшее качество, чем та же модель, отвечающая «напрямую».

Первая публичная демонстрация подхода — OpenAI o1, выпущенная в сентябре 2024. С тех пор все frontier-команды представили собственные варианты: Anthropic Claude с extended thinking, DeepMind Gemini Pro Thinking, DeepSeek-R1, Qwen-QwQ. К маю 2026 года reasoning-режим стал стандартной возможностью frontier-уровня.

Кривая «компьют против качества»

Опубликованные OpenAI и Anthropic графики показывают log-linear-зависимость качества от объёма compute, выделяемого на reasoning. На задачах AIME (соревнования по математике для школьников) удвоение объёма thinking-токенов даёт прирост точности на 8-15 пунктов. На задачах GPQA Diamond — на 5-9 пунктов. На обычных вопросах общей эрудиции прирост быстро упирается в потолок.

Это качественно новый паттерн. До reasoning-моделей кривая «качество против compute» была монотонной только в фазе обучения. В inference modelи показывали примерно одинаковое качество при любом объёме выделенных токенов — лишний compute уходил впустую. Теперь компьют на инференсе даёт измеримый прирост на определённых классах задач.

Стоимость и применимость

Главная сложность reasoning-моделей — стоимость. Типичная сессия с extended thinking требует в 5-15 раз больше токенов, чем эквивалентный direct-режим. При биллинге по токенам это означает кратное увеличение цены за запрос. Для команд это меняет экономику: reasoning-режим экономически оправдан только тогда, когда стоимость ошибки сопоставима со стоимостью compute.

Грубая прикидка для типичного API-запроса:

Простой вопрос (фактоид, классификация) → direct-режим, $0,005-0,02 за запрос.
Сложная задача с цепочкой выводов (математика, программирование, юридический анализ) → reasoning-режим, $0,15-1,5 за запрос.
Критическая задача с очень дорогой ценой ошибки (медицина, финансовый анализ) → reasoning-режим с верификацией, $1-5 за запрос.

Это не «верхняя планка качества», а градиент стоимости. Грамотная архитектура продукта использует разные режимы для разных классов запросов — каскадная маршрутизация, при которой простые запросы обрабатываются дешёвой моделью без reasoning, а сложные — переключаются на reasoning-режим.

Что меняется в подходе к продукту

Появление reasoning-режима делает определение «качество продукта» более многомерным. Раньше выбор сводился к компромиссу «качество против цены»: дешёвая модель = более низкое качество, дорогая = более высокое. Сейчас компромисс трёхмерный: качество, цена, латентность. Reasoning-режим даёт выигрыш в качестве за счёт цены и латентности. Direct-режим — обратный компромисс.

Это влияет на UX. Пользователь, привыкший к мгновенным ответам, плохо переносит ожидание в 20-40 секунд, которое типично для reasoning-режима. Это требует другого продуктового дизайна: продвижение «думающего режима» как опции, визуальная обратная связь о процессе рассуждения, асинхронные паттерны (запустить задачу — получить уведомление о готовности).

В перспективе следующих 12-18 месяцев следует ожидать дальнейшего расхождения моделей по двум осям. Frontier-модели продолжат развивать reasoning-возможности, делая возможным решение всё более сложных задач. Лёгкие специализированные модели будут оптимизироваться под скорость и стоимость для массовых сценариев. Универсальной модели «для всего» становится всё меньше — индустрия движется к продуктовой стратификации.

Inference-time scaling: что говорят кривые reasoning-моделей и сколько это стоит

Что такое reasoning-режим

Кривая «компьют против качества»

Стоимость и применимость

Что меняется в подходе к продукту

Связанное

RULER-2M: новый бенчмарк длинного контекста и что он показывает о реальных пределах моделей

Process Reward Models: новый уровень стабильности в RLHF-обучении

MMMU-Pro: что измеряет новый мультимодальный бенчмарк и где сейчас лидеры