OpenAI анонсировала обновление GPT-5o 22 мая, сделав акцент на двух направлениях: снижение латентности мультимодального ввода и пересмотр ценовой сетки. Релиз не сопровождался ростом ключевых benchmark-метрик — компания прямо указывает, что задача итерации в другом: довести качество интеракции до уровня, при котором голосовой ассистент становится коммерчески пригодным для массовых сценариев.
По данным компании, медианная задержка от завершения реплики пользователя до начала ответа модели снижена до 320 мс при работе через streaming-API. Это сопоставимо с естественной паузой в человеческом диалоге и заметно ниже барьера в 500 мс, после которого пользователи начинают воспринимать систему как «тормозящую».
Что нового в мультимодальном слое
Главный технический сдвиг — это переход на единый токенизатор для аудио, изображений и текста. В прошлой версии GPT-5o аудио и видео обрабатывались отдельными энкодерами с последующей склейкой в общий контекст. Теперь все три модальности попадают в трансформер в виде одной последовательности, что снижает overhead на синхронизацию.
На практике это даёт три эффекта:
- Возможность перебивать модель голосом без срыва генерации — Voice Activity Detection теперь работает внутри модели, а не в обвязке.
- Распознавание интонации, паузы и эмоционального тона стало частью контекста — модель учитывает их при выборе формулировок.
- Видеопоток в реальном времени поддерживается на частоте до 15 fps без отдельной квоты — ранее это было доступно только в рамках dev-превью.
Документация по интеграции через WebRTC и WebSocket опубликована на платформе OpenAI. Бета-доступ открыт для всех аккаунтов с потраченным платежом выше $5.
Новый ценовой тир и его последствия
OpenAI ввела промежуточную модель GPT-5o Mid между Mini и стандартной версией. Стоимость — $1,5 за миллион input-токенов и $6 за миллион output-токенов, что примерно в три раза дешевле базовой GPT-5o и в два раза дороже Mini. Целевой сценарий — массовые real-time-интеграции, где Mini уже не справляется по качеству, а полная модель экономически неоправданна.
Параллельно компания снизила стоимость кэшированных input-токенов на 35% во всей линейке. Для интеграций с длинными системными промтами и retrieval-augmented-сценариями это означает заметное снижение TCO без изменения архитектуры.
Что это значит для рынка
Главный конкурент в этом сегменте — Anthropic Claude Opus 4.7 и Google Gemini 2.5 Pro — пока не предлагают аналогичного real-time-voice-API на уровне публичной доступности. Anthropic фокусируется на агентных сценариях с extended thinking, Google — на длинном контексте. OpenAI таким образом занимает нишу «реактивного» ассистента, готового к встраиванию в колл-центры, поддержку и образовательные продукты.
Для российских команд практическое применение ограничено санкционным режимом — официальный API недоступен напрямую. Однако техническая планка задана: следующие итерации Yandex GPT и GigaChat будут оцениваться в том числе по скорости голосового взаимодействия, а не только по качеству текстового вывода.