ContextWindow
Тег

#research

Исследования

Совместная работа Сколтеха и Яндекса по эффективной токенизации русского языка

Исследователи опубликовали методологию построения токенизатора для русскоязычных корпусов с учётом морфологии. Заявленное снижение средней длины последовательности — до 18%, что напрямую влияет на стоимость инференса.