multimodal Archives - ContextWindow

Модели

OpenAI обновила GPT-5o: голос и зрение в реальном времени, новый ценовой тир

Релиз сокращает задержку голосового и визуального ввода до уровня естественного диалога и вводит промежуточную тарифную ступень между Mini и стандартной моделью. Главные изменения и их практический эффект для команд, строящих real-time-приложения.

22 мая 3 мин

Исследования

MMMU-Pro: что измеряет новый мультимодальный бенчмарк и где сейчас лидеры

Расширенная версия MMMU добавляет задачи с фильтрацией визуальных дистракторов и многошаговое визуальное рассуждение. Разбираем, чем отличается от предшественника и какие модели сейчас лидируют.

13 мая 3 мин