Совместная работа Сколтеха и Яндекса по эффективной токенизации русского языка

Исследователи опубликовали методологию построения токенизатора для русскоязычных корпусов с учётом морфологии. Заявленное снижение средней длины последовательности — до 18%, что напрямую влияет на стоимость инференса.

Сколтех и Yandex Research 7 мая опубликовали препринт на arXiv, описывающий методологию построения токенизатора, оптимизированного под русскоязычные корпуса. Авторы утверждают снижение средней длины токенизированной последовательности на 14-18% по сравнению с tiktoken cl100k (стандарт OpenAI) при сохранении сопоставимого качества на downstream-задачах.

Это важная техническая работа в контексте русскоязычных LLM. Стоимость инференса напрямую пропорциональна числу токенов: каждые 18% экономии означают пропорциональное снижение стоимости при том же объёме обрабатываемой информации. Для коммерческих API это переводится в реальные деньги при больших объёмах.

В чём суть подхода

Авторы исходят из наблюдения, что стандартные BPE-токенизаторы (Byte Pair Encoding), используемые в большинстве LLM, обучаются на смешанных мультиязычных корпусах. Для языков с богатой морфологией, таких как русский, это создаёт неэффективность: одно слово может разбиваться на 3-5 токенов из-за множественных окончаний, приставок и суффиксов.

Предлагаемая методология строит токенизатор в три этапа. На первом этапе из корпуса извлекаются морфологически значимые единицы — корни, аффиксы, частые сочетания — с учётом грамматической структуры русского языка. На втором этапе применяется модифицированный BPE-алгоритм, который при выборе кандидатов для слияния отдаёт предпочтение последовательностям, согласующимся с морфологическими границами. На третьем — токенизатор тестируется на размеченных корпусах и итеративно корректируется.

В результате типичные русские слова обрабатываются более компактно. Например, слово «исследование» в стандартном токенизаторе разбивается на 4 токена, в новом — на 2. Длинные деепричастные обороты сокращаются в 1,5-2 раза.

Влияние на качество модели

Авторы проверили влияние нового токенизатора на downstream-качество на трёх задачах: question answering на SberQuAD, named entity recognition на Russian-NER и summarization на корпусе новостей. Результаты не показывают статистически значимого ухудшения качества по сравнению со стандартным токенизатором при тренировке моделей сопоставимого размера на одинаковых корпусах.

Что заметно ниже — это число шагов обучения, необходимых для достижения целевого качества. При работе с морфологически согласованным токенизатором модель быстрее учится корректно обрабатывать русскую морфологию, что снижает требуемый compute для тренировки. Авторы оценивают экономию в 8-12%.

Применимость и ограничения

Главное применение — это базовые LLM, тренируемые специально под русскоязычные сценарии. Yandex GPT 5 Pro, выпущенный в мае, уже использует переработанный токенизатор — компания указывает на это в анонсе. GigaChat от Сбера в ближайших версиях, вероятно, последует тому же подходу.

Ограничения метода — это его привязанность к конкретному языку. Морфологически согласованный токенизатор для русского неэффективен для английского и наоборот. Для мультиязычных моделей это создаёт компромисс: либо более общий BPE с потерей эффективности на отдельных языках, либо набор языковых сабтокенайзеров с увеличением сложности обвязки.

Авторы анонсировали публикацию полного кода и обученных токенайзеров под лицензией Apache 2.0 в течение лета. Это даст возможность сторонним командам экспериментировать с подходом и применять его к другим языкам с богатой морфологией — например, к финно-угорским и тюркским.

Контекст для русскоязычного AI

Работа Сколтеха и Яндекса вписывается в более широкий тренд развития русскоязычной LLM-инфраструктуры. За последние 18 месяцев заметно выросла исследовательская активность в этом направлении — растёт число публикаций в международных журналах, формируются специализированные команды, появляется собственная экспертиза по отдельным аспектам LLM-стека.

Это важный сигнал в условиях ограниченного доступа к части западных технологий. Локальная экспертиза в фундаментальных компонентах — токенизаторы, методики оптимизации, evaluation-стек — это то, что обеспечивает технологическую устойчивость рынка независимо от геополитической конъюнктуры.

По мотивам: arXiv preprint, technical blog Yandex Research, материалы Сколтеха.

Совместная работа Сколтеха и Яндекса по эффективной токенизации русского языка

В чём суть подхода

Влияние на качество модели

Применимость и ограничения

Контекст для русскоязычного AI

Связанное

RULER-2M: новый бенчмарк длинного контекста и что он показывает о реальных пределах моделей

Process Reward Models: новый уровень стабильности в RLHF-обучении

MMMU-Pro: что измеряет новый мультимодальный бенчмарк и где сейчас лидеры