Sequoia 17 мая опубликовала второй в этом году отчёт по unit-экономике AI-компаний — обзор финансовых моделей 142 портфельных и наблюдаемых стартапов, ранжированных по выручке от $1 миллиона до $1 миллиарда ARR. Документ интересен не только конкретными цифрами, но и тезисом, который фонд продвигает последовательно: главный сдвиг в экономике AI-приложений в ближайшие три года произойдёт не из-за удешевления вычислений, а из-за изменения архитектуры продуктов.

Что показывает срез по марже

Валовая маржа AI-приложений в 2026 году распределена бимодально. Первая группа — приложения, в которых LLM-инференс является основной составляющей COGS (тонкие обёртки над API, AI-копилоты, генеративные продукты с массовым использованием). Их валовая маржа лежит в диапазоне 35-55%, что заметно ниже традиционного SaaS-бенчмарка в 75-85%.

Вторая группа — AI-приложения, где LLM лишь один из компонентов стоимости, рядом с традиционной разработкой, базами данных и операционными расходами. Их маржа ближе к классическому SaaS — 65-78%. Это enterprise-продукты с продвинутым retrieval-слоем, сложной интеграционной обвязкой, кастомизацией под клиента.

Sequoia утверждает, что грань между этими группами сейчас определяет долгосрочную защитимость бизнеса. Компании с низкой маржой более уязвимы к давлению со стороны новых entrant-ов, использующих более дешёвые модели, и к собственному росту: чем больше пользователей — тем выше абсолютная стоимость инференса при пропорциональном увеличении выручки.

Тезис о смещении архитектуры

Главный аналитический ход отчёта — это переинтерпретация фразы «GPU goes to zero». Sequoia утверждает: цена за токен на frontier-моделях не упадёт радикально в течение ближайших двух лет. Что произойдёт — это перенос значительной части задач, которые сейчас решаются вызовами frontier-моделей, на более дешёвые специализированные модели (3-13B), self-hosted-стеки и кеширующие слои.

Команды, которые этот сдвиг архитектурно учитывают, смогут существенно снизить COGS без потери качества для пользователя. Команды, которые продолжат строить продукт «всё через GPT-5o/Claude Opus», окажутся в позиции, в которой каждый новый пользователь повышает margin pressure.

Косвенным подтверждением тезиса служит наблюдаемая Sequoia статистика: среди компаний с маржой выше 70% более 80% используют каскадные модели — лёгкая модель отрабатывает большую часть запросов, тяжёлая вызывается только когда лёгкая не уверена в ответе. Среди компаний с маржой ниже 50% этот паттерн встречается у менее 25%.

Capex против opex

Любопытный наблюдаемый сдвиг — изменение баланса между капитальными и операционными расходами у AI-стартапов. Компании, выходящие на $20+ миллионов ARR, всё чаще делают капитальные инвестиции в собственную инфраструктуру (закупка или долгосрочная аренда GPU-кластеров) вместо опоры на потокенный биллинг от API-вендоров.

Расчёт прост: при ежемесячном API-счёте свыше $300-500 тысяч точка безубыточности по сравнению с собственной инфраструктурой достигается за 14-18 месяцев. Это меняет статус сделки с «оптимизация расходов» на «стратегическая capex-инвестиция», что требует другого подхода к финансированию и принятию решений.

Этот сдвиг частично объясняет, почему такие компании, как Mistral, Cohere и Perplexity, в 2026 году начали строить собственную инфраструктуру несмотря на доступность managed-альтернатив. Для бизнеса, чья модель — посредничество между моделью и пользователем, контроль над инфраструктурой становится конкурентным преимуществом, а не операционной деталью.

Следующий отчёт Sequoia по теме обещают опубликовать осенью с углублённым разбором динамики стоимости инференса в каскадных архитектурах.