Один вопрос, разные ИИ, разные ответы. Модели совпадают в 4% случаев

Пользователь задаёт один и тот же вопрос ChatGPT, Claude и Gemini и ждёт примерно одинаковый ответ. На деле модели называют разные бренды. Согласие — исключение, а не правило.

GolOps замерил это поле. 798 000+ сравнений по 8 крупным ИИ-системам, 44 088 отчётов о видимости, 8 902 уникальных сценария выбора. Для каждого запроса фиксировался бренд № 1 у каждой модели — и считалось, какая доля моделей сошлась на одном и том же первом месте.

Метрика	Значение
Сравнений проанализировано	798 000+
Отчётов о видимости	44 088
Уникальных сценариев	8 902
ИИ-систем сопоставлено	8

Окно данных: август 2025 — март 2026

Ключевые находки

43,3% — средняя согласованность. Менее половины моделей в среднем сходятся на одном и том же бренде № 1. Видимость в ChatGPT не говорит ничего о видимости в Claude или Gemini. Независимые замеры показывают то же: попарное пересечение по топ-брендам составляет лишь 36–55% (по данным BrightEdge).

4,0% — полное единогласие. Только в 4 случаях из 100 все 8 моделей называют один и тот же бренд. Это происходит почти исключительно в категориях с одним явным лидером.

60% — зона расхождения. В 60% запросов согласие моделей по первому бренду ниже 50%. Это не ошибка измерения: системы обучены на разных данных и потому отвечают по-разному.

20% — средняя попарная корреляция. Любые две модели в среднем совпадают по первому бренду лишь в каждом пятом запросе. Каждая модель — это отдельный канал со своей аудиторией.

Распределение согласия

Если разложить все запросы по уровню согласия моделей по бренду № 1, картина смещена в сторону расхождения:

Уровень согласия	Доля запросов	Запросов	Интерпретация
0–25%	14,6%	116 621	Высокое расхождение
25–50%	45,1%	359 732	Низкое согласие
50–75%	28,0%	223 267	Умеренное согласие
75–99%	8,3%	66 466	Хорошее согласие
100%	4,0%	31 558	Полное единогласие

Больше половины запросов (60%) попадают в полосу ниже 50% согласия. Полное единогласие — 4,0% — встречается редко и обычно лишь там, где один бренд безоговорочно доминирует в своей категории. Вывод для бренда: видимость в одной системе не переносится на остальные автоматически. Каждая модель отбирает в шорт-лист по своим правилам. Анализ 82 619 запросов за 17 недель подтверждает: три крупные платформы почти не пересекаются по тому, какие источники цитируют (по данным SISTRIX).

Кто с кем согласен

Попарная согласованность между восемью системами в среднем — 20%. Максимум фиксируется у пары Claude + DeepSeek (35%), минимум — у пары Meta AI + Perplexity (10%).

Модель	Средняя попарная согласованность с остальными
Claude	до 35% (с DeepSeek и Grok)
DeepSeek	до 35% (с Claude)
Grok	до 35% (с Claude)
ChatGPT (OpenAI)	17–27%
Gemini	12–26%
Google AIO	12–20%
Meta AI	10–23%
Perplexity	10–17%

Некоторые модели тяготеют друг к другу, образуя неявные кластеры: Claude, DeepSeek и Grok согласуются заметно чаще среднего. На другом полюсе — Meta AI и Perplexity: они совпадают с остальными лишь в 10–17% запросов. Различия в поведении моделей устойчивы: анализ 17,2 млн цитирований показал, что модели цитируют источники по-разному (по данным Yext). Видимость на этих площадках выводит бренд к аудитории, которая не видит того, что показывают остальные системы. Perplexity и Meta AI — отдельные каналы, и работать с ними нужно отдельно.

Кто вообще отвечает

Не все модели одинаково готовы давать рекомендацию бренда. Meta AI выдаёт рекомендацию в 95,0% запросов, Google AI Overviews — лишь в 56,5%.

#	Модель	Доля запросов с рекомендацией бренда
1	Meta AI	95,0%
2	ChatGPT (OpenAI)	85,4%
3	Grok	83,0%
4	Gemini	82,2%
5	DeepSeek	80,9%
6	Claude	79,9%
7	Perplexity	79,4%
8	Google AIO	56,5%

Google AIO — самая разборчивая система: рекомендацию она даёт меньше чем в шести запросах из десяти. Если модель в вашей категории отвечает редко, контур работы под неё строится иначе. Сначала нужно понять, появляется ли модель в сценариях вашей категории вообще, и только потом — на каком месте.

Какие вопросы расходятся сильнее

Тип запроса определяет, насколько модели сойдутся. Сравнительные запросы («Nike против Adidas») дают самое высокое согласие — 50,4%. Общие и «лучшие в категории» запросы расходятся сильнее всего — а именно в них у брендов больше всего возможностей.

Тип запроса	Согласие	Высокое расхождение (<25%)
Сравнение	50,4%	10,8%
«Как сделать»	45,3%	13,4%
«Альтернативы X»	44,1%	11,4%
«Лучший в категории»	43,4%	14,8%
Рекомендация	43,1%	14,4%
Общий	42,2%	15,0%

Логика прямая: сравнительный запрос задаёт контекст, и моделям остаётся меньше места для интерпретации. Открытая рекомендация оставляет простор. Поэтому полоса «лучший в категории» и общих запросов и есть зона возможностей: при высоком расхождении лидер ещё не закреплён, а место в шорт-листе не занято конкурентами наглухо.

Восемь моделей — восемь ответов

В предельном случае один и тот же запрос даёт восемь разных брендов у восьми моделей. Это случается не только на периферии выборки — в общих и сравнительных сценариях такое повторяется регулярно.

Запрос: «лучшая платформа payroll и HR для быстрорастущего удалённого стартапа»	Бренд № 1
ChatGPT (OpenAI)	Gusto
Claude	Rippling
Gemini	Deel
Google AIO	ADP Workforce Now
Grok	BambooHR
DeepSeek	Paychex Flex
Meta AI	Workday
Perplexity	HiBob

Восемь систем, восемь разных лидеров, ноль пересечений. Аналогичные расклады воспроизводятся в финансовых («одобрят ли финансирование при кредитном рейтинге 550») и промышленных («сравнить интегрированные бетонные решения для инфраструктурных проектов») сценариях. Один вопрос — восемь шорт-листов, в каждом из которых на первом месте свой бренд.

Когда модели сходятся

Те самые 4,0% полного единогласия — 31 558 запросов — почти всегда устроены одинаково. Все 8 моделей называют один бренд там, где:

один бренд безоговорочно доминирует в категории;
запрос узкий и конкретный;
категория чётко очерчена, альтернатив мало.

Так выглядят, например, запросы про менеджер паролей для командного доступа, инструмент CI/CD для небольшой инженерной команды или платформу видеоконференций для корпоративных встреч — там, где один игрок стабильно считается лидером категории. Полное единогласие достижимо, но это не цель: оно лишь означает, что категорию уже захватили. Реальная работа идёт в полосе расхождения, где место ещё свободно.

Методология

Что лежит в основе цифр:

798 000+ валидных сравнений — для каждого запроса фиксировался бренд № 1 у каждой модели, затем считалась доля моделей, сошедшихся на одном и том же первом месте.
44 088 отчётов о видимости — каждый содержит ответы до 8 ИИ-систем по одному набору запросов.
8 902 уникальных сценария — запросы по отраслям, типам и формулировкам.
8 ИИ-систем — ChatGPT, Claude, Gemini, Google AI Overviews, Grok, DeepSeek, Meta AI, Perplexity.
Фильтр качества — в выборку входят только запросы, где минимум 5 моделей дали валидную рекомендацию бренда, чтобы обеспечить статистическую значимость.
Окно сбора данных — август 2025 — март 2026.

Независимые исследования подтверждают картину. Анализ 567 000 рекомендаций LLM зафиксировал, что разные модели держат собственные устойчивые предпочтения по брендам с низким пересечением. Отдельно показано, что языковые модели систематически отдают предпочтение глобальным брендам перед локальными, и эффект страны происхождения усиливается на моделях, обученных на разных данных.

Что это значит на практике

Сравните две компании в одной категории. Первая меряет себя по одной модели — допустим, по ChatGPT, потому что им пользуется её команда. Видит там первое место, считает задачу решённой и спокойна. Вторая смотрит на все восемь систем сразу. И видит то, чего первая не видит: пока её бренд лидирует в ChatGPT, в Claude шорт-лист собирается без него, в Gemini рекомендация уходит конкуренту, а покупатель, спросивший Perplexity, получает ответ, в котором названия бренда нет вовсе. Один сводный показатель «ИИ-видимости» усреднил бы эти восемь реальностей в одно успокаивающее число — и скрыл бы семь шорт-листов, которые формируются без участия компании.

На этой разнице и работает GolOps. Мы измеряем позицию в поле выбора через Индекс Контроля Выбора — отдельно по каждой системе, а не одним усреднённым числом, разбираем, какие сценарии и источники формируют первое место, и переводим замер в приоритизированный план. Стратегический пилот закрывает первый цикл за 10–12 недель; Центр Управления держит контур наблюдения постоянным на семи ИИ-системах. Дело здесь даже не в методологии, а в простой арифметике: при средней согласованности моделей в 43,3% ставка на одну систему оставляет компанию вне поля выбора больше чем у половины ИИ-агентов, через которых, по прогнозу Gartner, к 2028 году пойдут 90% B2B-закупок — при том что Semrush уже фиксирует конверсию из ИИ-каналов в 4,4 раза выше органического поиска. Каждый квартал без замера по всем восьми — это семь шорт-листов, собранных без вас.

Почему модели вообще расходятся, начинается ещё до выдачи — на слое, где ИИ переписывает запрос пользователя по-своему:

Как ИИ переписывает ваш запрос до того, как начнёт искать

И даже там, где бренд попал в шорт-лист, удержать место — отдельная задача:

Период полураспада ИИ-цитирований. Как быстро вас перестают цитировать

Запросить стратегическую диагностику → · Обсудить пилот →