GolOps
Назад к блогу
ИсследованиеЯзыковые модели

Один вопрос, разные ИИ, разные ответы. Модели совпадают в 4% случаев

Исследование GolOps — 798 000+ сравнений по 8 ИИ-системам. Средняя согласованность по бренду № 1 — 43,3%, полное единогласие — 4,0%. Каждая модель отбирает в шорт-лист по-своему, и видимость в одной не переносится на другую.

Команда GolOpsКоманда GolOps
Один вопрос, разные ИИ, разные ответы. Модели совпадают в 4% случаев
Один вопрос, разные ИИ, разные ответы. Модели совпадают в 4% случаев
GolOps Lab

Пользователь задаёт один и тот же вопрос ChatGPT, Claude и Gemini и ждёт примерно одинаковый ответ. На деле модели называют разные бренды. Согласие — исключение, а не правило.

GolOps замерил это поле. 798 000+ сравнений по 8 крупным ИИ-системам, 44 088 отчётов о видимости, 8 902 уникальных сценария выбора. Для каждого запроса фиксировался бренд № 1 у каждой модели — и считалось, какая доля моделей сошлась на одном и том же первом месте.

МетрикаЗначение
Сравнений проанализировано798 000+
Отчётов о видимости44 088
Уникальных сценариев8 902
ИИ-систем сопоставлено8

Окно данных: август 2025 — март 2026

Ключевые находки

43,3% — средняя согласованность. Менее половины моделей в среднем сходятся на одном и том же бренде № 1. Видимость в ChatGPT не говорит ничего о видимости в Claude или Gemini. Независимые замеры показывают то же: попарное пересечение по топ-брендам составляет лишь 36–55% (по данным BrightEdge).

4,0% — полное единогласие. Только в 4 случаях из 100 все 8 моделей называют один и тот же бренд. Это происходит почти исключительно в категориях с одним явным лидером.

60% — зона расхождения. В 60% запросов согласие моделей по первому бренду ниже 50%. Это не ошибка измерения: системы обучены на разных данных и потому отвечают по-разному.

20% — средняя попарная корреляция. Любые две модели в среднем совпадают по первому бренду лишь в каждом пятом запросе. Каждая модель — это отдельный канал со своей аудиторией.

Распределение согласия

Если разложить все запросы по уровню согласия моделей по бренду № 1, картина смещена в сторону расхождения:

Уровень согласияДоля запросовЗапросовИнтерпретация
0–25%14,6%116 621Высокое расхождение
25–50%45,1%359 732Низкое согласие
50–75%28,0%223 267Умеренное согласие
75–99%8,3%66 466Хорошее согласие
100%4,0%31 558Полное единогласие

Больше половины запросов (60%) попадают в полосу ниже 50% согласия. Полное единогласие — 4,0% — встречается редко и обычно лишь там, где один бренд безоговорочно доминирует в своей категории. Вывод для бренда: видимость в одной системе не переносится на остальные автоматически. Каждая модель отбирает в шорт-лист по своим правилам. Анализ 82 619 запросов за 17 недель подтверждает: три крупные платформы почти не пересекаются по тому, какие источники цитируют (по данным SISTRIX).

Кто с кем согласен

Попарная согласованность между восемью системами в среднем — 20%. Максимум фиксируется у пары Claude + DeepSeek (35%), минимум — у пары Meta AI + Perplexity (10%).

МодельСредняя попарная согласованность с остальными
Claudeдо 35% (с DeepSeek и Grok)
DeepSeekдо 35% (с Claude)
Grokдо 35% (с Claude)
ChatGPT (OpenAI)17–27%
Gemini12–26%
Google AIO12–20%
Meta AI10–23%
Perplexity10–17%

Некоторые модели тяготеют друг к другу, образуя неявные кластеры: Claude, DeepSeek и Grok согласуются заметно чаще среднего. На другом полюсе — Meta AI и Perplexity: они совпадают с остальными лишь в 10–17% запросов. Различия в поведении моделей устойчивы: анализ 17,2 млн цитирований показал, что модели цитируют источники по-разному (по данным Yext). Видимость на этих площадках выводит бренд к аудитории, которая не видит того, что показывают остальные системы. Perplexity и Meta AI — отдельные каналы, и работать с ними нужно отдельно.

Кто вообще отвечает

Не все модели одинаково готовы давать рекомендацию бренда. Meta AI выдаёт рекомендацию в 95,0% запросов, Google AI Overviews — лишь в 56,5%.

#МодельДоля запросов с рекомендацией бренда
1Meta AI95,0%
2ChatGPT (OpenAI)85,4%
3Grok83,0%
4Gemini82,2%
5DeepSeek80,9%
6Claude79,9%
7Perplexity79,4%
8Google AIO56,5%

Google AIO — самая разборчивая система: рекомендацию она даёт меньше чем в шести запросах из десяти. Если модель в вашей категории отвечает редко, контур работы под неё строится иначе. Сначала нужно понять, появляется ли модель в сценариях вашей категории вообще, и только потом — на каком месте.

Какие вопросы расходятся сильнее

Тип запроса определяет, насколько модели сойдутся. Сравнительные запросы («Nike против Adidas») дают самое высокое согласие — 50,4%. Общие и «лучшие в категории» запросы расходятся сильнее всего — а именно в них у брендов больше всего возможностей.

Тип запросаСогласиеВысокое расхождение (<25%)
Сравнение50,4%10,8%
«Как сделать»45,3%13,4%
«Альтернативы X»44,1%11,4%
«Лучший в категории»43,4%14,8%
Рекомендация43,1%14,4%
Общий42,2%15,0%

Логика прямая: сравнительный запрос задаёт контекст, и моделям остаётся меньше места для интерпретации. Открытая рекомендация оставляет простор. Поэтому полоса «лучший в категории» и общих запросов и есть зона возможностей: при высоком расхождении лидер ещё не закреплён, а место в шорт-листе не занято конкурентами наглухо.

Восемь моделей — восемь ответов

В предельном случае один и тот же запрос даёт восемь разных брендов у восьми моделей. Это случается не только на периферии выборки — в общих и сравнительных сценариях такое повторяется регулярно.

Запрос: «лучшая платформа payroll и HR для быстрорастущего удалённого стартапа»Бренд № 1
ChatGPT (OpenAI)Gusto
ClaudeRippling
GeminiDeel
Google AIOADP Workforce Now
GrokBambooHR
DeepSeekPaychex Flex
Meta AIWorkday
PerplexityHiBob

Восемь систем, восемь разных лидеров, ноль пересечений. Аналогичные расклады воспроизводятся в финансовых («одобрят ли финансирование при кредитном рейтинге 550») и промышленных («сравнить интегрированные бетонные решения для инфраструктурных проектов») сценариях. Один вопрос — восемь шорт-листов, в каждом из которых на первом месте свой бренд.

Когда модели сходятся

Те самые 4,0% полного единогласия — 31 558 запросов — почти всегда устроены одинаково. Все 8 моделей называют один бренд там, где:

  • один бренд безоговорочно доминирует в категории;
  • запрос узкий и конкретный;
  • категория чётко очерчена, альтернатив мало.

Так выглядят, например, запросы про менеджер паролей для командного доступа, инструмент CI/CD для небольшой инженерной команды или платформу видеоконференций для корпоративных встреч — там, где один игрок стабильно считается лидером категории. Полное единогласие достижимо, но это не цель: оно лишь означает, что категорию уже захватили. Реальная работа идёт в полосе расхождения, где место ещё свободно.

Методология

Что лежит в основе цифр:

  • 798 000+ валидных сравнений — для каждого запроса фиксировался бренд № 1 у каждой модели, затем считалась доля моделей, сошедшихся на одном и том же первом месте.
  • 44 088 отчётов о видимости — каждый содержит ответы до 8 ИИ-систем по одному набору запросов.
  • 8 902 уникальных сценария — запросы по отраслям, типам и формулировкам.
  • 8 ИИ-систем — ChatGPT, Claude, Gemini, Google AI Overviews, Grok, DeepSeek, Meta AI, Perplexity.
  • Фильтр качества — в выборку входят только запросы, где минимум 5 моделей дали валидную рекомендацию бренда, чтобы обеспечить статистическую значимость.
  • Окно сбора данных — август 2025 — март 2026.

Независимые исследования подтверждают картину. Анализ 567 000 рекомендаций LLM зафиксировал, что разные модели держат собственные устойчивые предпочтения по брендам с низким пересечением. Отдельно показано, что языковые модели систематически отдают предпочтение глобальным брендам перед локальными, и эффект страны происхождения усиливается на моделях, обученных на разных данных.

Что это значит на практике

Сравните две компании в одной категории. Первая меряет себя по одной модели — допустим, по ChatGPT, потому что им пользуется её команда. Видит там первое место, считает задачу решённой и спокойна. Вторая смотрит на все восемь систем сразу. И видит то, чего первая не видит: пока её бренд лидирует в ChatGPT, в Claude шорт-лист собирается без него, в Gemini рекомендация уходит конкуренту, а покупатель, спросивший Perplexity, получает ответ, в котором названия бренда нет вовсе. Один сводный показатель «ИИ-видимости» усреднил бы эти восемь реальностей в одно успокаивающее число — и скрыл бы семь шорт-листов, которые формируются без участия компании.

На этой разнице и работает GolOps. Мы измеряем позицию в поле выбора через Индекс Контроля Выбора — отдельно по каждой системе, а не одним усреднённым числом, разбираем, какие сценарии и источники формируют первое место, и переводим замер в приоритизированный план. Стратегический пилот закрывает первый цикл за 10–12 недель; Центр Управления держит контур наблюдения постоянным на семи ИИ-системах. Дело здесь даже не в методологии, а в простой арифметике: при средней согласованности моделей в 43,3% ставка на одну систему оставляет компанию вне поля выбора больше чем у половины ИИ-агентов, через которых, по прогнозу Gartner, к 2028 году пойдут 90% B2B-закупок — при том что Semrush уже фиксирует конверсию из ИИ-каналов в 4,4 раза выше органического поиска. Каждый квартал без замера по всем восьми — это семь шорт-листов, собранных без вас.

Почему модели вообще расходятся, начинается ещё до выдачи — на слое, где ИИ переписывает запрос пользователя по-своему:

Как ИИ переписывает ваш запрос до того, как начнёт искать

И даже там, где бренд попал в шорт-лист, удержать место — отдельная задача:

Период полураспада ИИ-цитирований. Как быстро вас перестают цитировать

Запросить стратегическую диагностику → · Обсудить пилот →