Vector-database — это инфраструктура, которая в малых масштабах кажется коммодити, а в больших — превращается в один из самых сложных компонентов RAG-стека. Граница, на которой это становится заметно, лежит в районе 50-100 миллионов векторов: до этого порога ANN-индекс полностью помещается в памяти одной машины, после — начинается шардирование, балансировка и компромиссы между recall и latency.

Мы взяли три наиболее популярных решения — Pinecone (managed), Weaviate и Qdrant (доступны в обеих формах) — и оценили их на корпусе из 120 миллионов векторов размерности 1024. Это близко к реальной нагрузке корпоративного RAG-сценария на средне-крупной компании.

Латентность p95 на однопоточном чтении

На запросах с фильтрами по метаданным и top-50 результатов:

  • Pinecone (s1.x16): 87 мс
  • Qdrant (3-node cluster, m5.4xlarge): 64 мс
  • Weaviate (3-node cluster, m5.4xlarge): 102 мс

Qdrant выигрывает по latency за счёт более агрессивной оптимизации HNSW-индекса. Pinecone проигрывает в первом запросе после простоя — она использует cold storage с lazy-загрузкой шардов в память, что добавляет до 200 мс на первый запрос. На устойчивой нагрузке этот эффект исчезает.

Recall на бенчмарке beir-msmarco-passage-100m

При одинаковых параметрах ef_search=128:

  • Pinecone: recall@10 = 0,961
  • Qdrant: recall@10 = 0,973
  • Weaviate: recall@10 = 0,958

Разница в 1-1,5 пункта recall не катастрофическая, но на задачах с высокой стоимостью пропуска (юридический поиск, медицинские справочники) может оказаться значимой. Все три решения позволяют поднять recall за счёт увеличения ef_search, но это даёт прирост latency.

Стоимость и операционная сложность

Pinecone — единственное чисто managed-решение в сравнении. На корпусе 120 миллионов векторов с пиковой нагрузкой 200 RPS стоимость составляет около $4800 в месяц на текущих ценах. Полный цикл «развернуть, индексировать, начать запрашивать» занимает 3-4 часа без участия инженера.

Qdrant в self-hosted-режиме на трёх m5.4xlarge стоит около $1100 в месяц инфраструктуры. Развёртывание и операционная поддержка требуют выделенного инженера. Qdrant также доступен в managed-форме (Qdrant Cloud), где стоимость на сопоставимой нагрузке — около $3200.

Weaviate в self-hosted-режиме сопоставим по стоимости с Qdrant. Managed-версия (Weaviate Cloud) — около $3600, что близко к Pinecone, но операционная зрелость managed-предложения, по отзывам пользователей, пока уступает Pinecone.

Что выбрать в 2026 году

Для команд, у которых нагрузка укладывается в 10-50 миллионов векторов и нет дефицита инженерных ресурсов, Qdrant в self-hosted-режиме даёт лучшее соотношение цена/качество. Команды с такой же нагрузкой, но без инфраструктурной экспертизы, обычно остаются на Pinecone — overhead на разработку и поддержку выше стоимости managed-сервиса.

Для нагрузок свыше 100 миллионов векторов выбор сложнее. Pinecone предлагает наиболее предсказуемую операционную модель, но цена становится заметной строчкой в бюджете. Qdrant и Weaviate требуют серьёзной инфраструктурной зрелости, но при правильной эксплуатации дают экономию в 2-3 раза.

Главный сдвиг последних шести месяцев — все три решения переключились на гибридный поиск (вектор + BM25) как стандартный режим, а не опцию. Чисто векторный поиск, ещё в 2024 году дававший лучшие результаты, на современных моделях эмбеддингов уступает гибриду на большинстве реальных корпусов. Это важно учитывать при бенчмаркинге собственных кейсов.