GolOps
Назад к блогу
ИсследованиеЯзыковые модели

Предпочитают ли ИИ-краулеры Markdown. Контролируемый эксперимент

Исследование GolOps — 9 033 страницы, рандомизированных между Markdown и HTML, 28 000 живых обращений ИИ, четыре краулера. Один краулер уходит в HTML на −29,4%, три остаются ровными, payload в Markdown на 75,9% меньше.

Команда GolOpsКоманда GolOps
Предпочитают ли ИИ-краулеры Markdown. Контролируемый эксперимент
Предпочитают ли ИИ-краулеры Markdown. Контролируемый эксперимент
GolOps Lab

Раз в несколько недель кто-нибудь с полной уверенностью заявляет: ИИ-краулеры обожают Markdown. Следующий с той же уверенностью говорит, что формат не значит ничего. Замер не делает почти никто. GolOps его сделал: один и тот же URL, два формата, четыре краулера. Краулеры между собой не сходятся.

GolOps рандомизировал 9 033 публичные страницы между двумя поверхностями — Markdown и HTML — и зафиксировал, что с каждой версией делают четыре разных ИИ-краулера. Поверх этого — 28 000 живых обращений ChatGPT-User в реальном времени. Главный результат: из четырёх краулеров сторону выбрал один. И это GPTBot — обучающий скрапер OpenAI, а не тот краулер, что решает, кого процитировать в живом ответе.

МетрикаЗначение
Страниц рандомизировано9 033
Сплит Markdown / HTML4 516 / 4 517
Живых обращений ИИ замерено28 000
Экономия payload в Markdown75,9%

Поверхность закреплена за URL: один и тот же адрес всегда отдаёт один и тот же формат.

Ключевые находки

−29,4% — GPTBot уходит в HTML. Единственный статистически устойчивый результат на доске. GPTBot почти не берёт Markdown-страницы: 2,5% против 31,9% по HTML (p<0,001). Но GPTBot — обучающий скрапер, он говорит о том, как отбирается корпус для будущих моделей, а не о том, кого процитируют сегодня.

+2,8% — OAI-SearchBot склоняется к Markdown. Краулер за ChatGPT Search достаёт Markdown-страницы чуть чаще (47,2% против 44,4%), но разрыв пока внутри шумовой полосы (p=0,189). Это единственная строка, на которой стоит держать руку.

−0,3% — ChatGPT-User не видит разницы. Живое обращение в реальном времени берёт Markdown и HTML практически одинаково (76,7% против 77,0%, p=0,859). В момент разговора формат не решает, какую страницу открыть. Решает вопрос пользователя.

75,9% — payload в Markdown. Та же страница в Markdown весит примерно четверть от HTML-версии. Дешевле скачать, быстрее распарсить. Если стоимость извлечения станет сигналом маршрутизации внутри лабораторий, этот разрыв начнёт работать.

Дизайн эксперимента

Каждая публичная страница получает одну из двух поверхностей — Markdown или HTML — по хэшу своего URL. Контент тот же, canonical тот же, формат разный. Краулеры не знают, что находятся в тесте, — они просто видят страницу. Поскольку поверхность закреплена за URL, один и тот же адрес всегда отдаёт один и тот же формат, и когда краулер возвращается, мы знаем, в какой он группе. Так сравнение остаётся чистым.

ПараметрЗначение
Страниц в тесте9 033
Сплит50/50, случайный но стабильный (4 516 Markdown / 4 517 HTML)
Где замеряем эффект2 249 страниц рекомендаций — самые часто обходимые URL
Метод назначенияхэш(URL + ID эксперимента) → Markdown или HTML

В тест входит каждая публичная индексируемая страница со стабильным URL. Страницы за логином, редиректы и превью исключены. Основной слой замера — страницы рекомендаций вида /ai-recommends/<продукт>/<аудитория> («лучшая ИИ-транскрипция для НКО» и подобные). Их тысячи, поэтому на этом срезе хватает объёма, чтобы поймать небольшие эффекты.

Три краулера OpenAI делают три разные работы

Большинство разборов сваливают краулеров OpenAI в одну кучу. Это ошибка измерения. Каждый делает свою работу, ходит по своему графику и реагирует на формат по-своему. По данным Vercel, ИИ-краулеры тянут сырой контент и не исполняют JavaScript — поэтому то, как вы отдаёте страницу, важнее, чем кажется. Если считать обходы GPTBot доказательством живых цитирований или читать цифры ChatGPT-User как индексацию для поиска — вы меряете не то.

OAI-SearchBot — индексный краулер поиска. Обходит стабильно, как поисковая машина. Тянет страницы в поисковый индекс OpenAI — ту систему, что решает, что всплывёт внутри ChatGPT Search. Если важно показаться, когда ChatGPT ищет в открытом вебе, это краулер, чьи предпочтения весят больше всего.

ChatGPT-User — живое извлечение. Открывает страницу в реальном времени, когда пользователь в ChatGPT задаёт вопрос и модель решает, что ей нужен контекст для ответа. Чистый спрос времени разговора. О чём бы ни спросил пользователь — идёт за страницей именно этот бот.

GPTBot — скрапер обучающих данных. Приходит тяжёлыми всплесками по графику. Тянет страницы в корпус для обучения будущих версий GPT. Говорит о предпочтениях обучающего конвейера, а не о том, процитируют ли вашу страницу, когда реальный пользователь говорит с ChatGPT сегодня. Как именно эти боты ходят по сайту и по каким графикам — мы разбирали отдельно в Когда ИИ приходит на ваш сайт. Анатомия 600 000 визитов краулеров.

Результаты: один устойчивый сигнал, три ещё движутся

На страницах рекомендаций плюс живое извлечение ChatGPT-User: из пяти краулеров чёткое предпочтение Markdown или HTML показывает один. Один склоняется в сторону, но данных пока мало. Три стоят ровно — одинаковый охват для обоих форматов.

КраулерТипСдвигMarkdownHTMLЗначимость
GPTBotобучение−29,4%2,5% (28 из 1 119)31,9% (361 из 1 130)p<0,001
OAI-SearchBotпоиск+2,8%47,2% (528 из 1 119)44,4% (502 из 1 130)p=0,189
ChatGPT-Userвзаимодействие−0,3%76,7%77,0%p=0,859 (ровно)
PerplexityBotпоиск−1,3%8,4% (94 из 1 119)9,7% (110 из 1 130)p=0,271
ClaudeBotобучение−2,0%8,9% (100 из 1 119)11,0% (124 из 1 130)p=0,107

Большой HTML-уклон GPTBot — единственный статистически закрытый результат на доске, и с ним мы аккуратны. GPTBot кормит будущие версии модели, а не отвечает за цитирование сегодня. Интересно, но менять под это сайт рано.

Строка, на которой стоит держать руку, — OAI-SearchBot. Это краулер за ChatGPT Search; когда ChatGPT идёт за свежими данными в открытый веб, посылает он именно его. Сейчас уклон в Markdown на несколько пунктов, но не настолько, чтобы быть уверенным статистически.

Остальные — ChatGPT-User, Perplexity, Claude — стоят примерно ровно. Markdown и HTML достаются примерно с одной частотой. Это логично: системы гонятся за вопросом пользователя, а не за форматом страницы. Ровная линия здесь и есть результат. В момент разговора важнее, о чём ваша страница, а не как вы её отдаёте.

Живое извлечение идёт за вопросом, а не за форматом

ChatGPT-User — не краулер на графике. Он открывает страницу посреди разговора, потому что кто-то спросил ChatGPT и модели понадобилась реальная страница для ответа. За 28 000 таких живых обращений на сайте спрос идёт за темами, о которых люди реально спрашивают, и распределяется примерно поровну между обеими группами эксперимента.

КатегорияЖивых обращений за 7 дней
ai-transcription1 603
automation1 310
ai-image1 269
vpn1 183
payment-processing1 042

Контрольная проверка: ChatGPT-User достал 76,7% страниц, назначенных в Markdown, и 77,0% — назначенных в HTML. Разница 0,3% (p=0,859). Значит, разрывы между категориями выше — про то, о чём спрашивали люди, а не про то, какой группе досталось больше трафика.

Почему Markdown может вырваться вперёд

Уклон OAI-SearchBot в Markdown сейчас мал. Но вот структурная причина, по которой эта линия может расти. Снимите со стандартной HTML-страницы навигацию, скрипты, трекинговые пиксели и CSS-обвес — останется только ответ. Markdown-версия той же страницы — примерно четверть размера. Дешевле скачать, быстрее распарсить. Тренд уже признают на уровне инфраструктуры: Cloudflare запустил Markdown for Agents — отдачу Markdown-версий страниц ИИ-агентам ради экономии токенов.

ФорматДоля payload
Markdown24%
HTML100%
Разница−75,9%

За время эксперимента 4 745 обращений мы отдали как Markdown и 5 322 — как HTML по рандомизированным URL. Совокупная экономия — 32,7% байт против отдачи всего как HTML. Если стоимость извлечения когда-нибудь станет сигналом маршрутизации внутри лабораторий — а минимум в одной, по нашей оценке, уже стала, — этот разрыв перестанет быть бесплатным.

Методология

Каждый замер строится из одного снимка. Если текст утверждает то, чего нет в данных, истина — снимок. Вот как устроен замер и чего он пока не может сказать.

  • Закрепление поверхности. Каждая допущенная страница привязана к Markdown или HTML по хэшу своего URL: один и тот же адрес — одна и та же поверхность, каждый раз. Краулер не может увидеть обе версии.
  • Головная метрика — покрытие на уровне страниц. Из всех страниц, назначенных в группу, какую долю краулер реально достал. Счётчики запросов и переданные байты считаем тоже, но как вторичный сигнал: несколько популярных URL могут перетянуть на себя сырой объём.
  • Статистика. Различия между Markdown и HTML проверяются двухдолевым z-тестом и сообщаются как разрыв в процентных пунктах с p-значением.
  • ChatGPT-User вынесен отдельно от OAI-SearchBot: это живое извлечение по запросу пользователя, а не фоновая индексация. Сигнал совсем другой.

Чего замер пока не может сказать. Боты опознаются по строке user-agent — верифицированного сигнала бота от Cloudflare в данных пока нет, поэтому ресурсный спуфер мог быть посчитан неверно. И мы меряем, достаёт ли краулер страницу, а не процитировал ли её ИИ в ответе. Это связанные, но не одинаковые вопросы.

Что забрать из эксперимента

Формат — это гигиена, а не рычаг. Четыре из пяти краулеров не показывают реального предпочтения: их сдвиги стоят внутри шумовой полосы. Сторону выбрал только GPTBot — обучающий скрапер, который склоняется к HTML на −29,4%, — но он кормит будущие версии модели, а не решает, кого процитировать сегодня. Markdown стоит держать: он не вредит, экономит до трети байт и снимает шум вокруг ответа. Но рассчитывать, что один формат поднимет цитируемость, — значит решать задачу не на том уровне.

Рычаг — не разметка страницы, а инфраструктура цитирования: попадает ли бренд в источники, на которые опирается модель по нужному сценарию покупателя. Этот слой и берёт под управление GolOps. Мы измеряем позицию компании в поле выбора через Индекс Контроля Выбора, разбираем, какие источники и сценарии её формируют, и переводим замер в приоритизированный план. Стратегический пилот закрывает первый цикл за 10–12 недель; Центр Управления держит контур в постоянном режиме на семи ИИ-системах.

Цена ошибки считается просто. Gartner прогнозирует, что к 2028 году 90% B2B-закупок пойдут через автономных ИИ-агентов, а Semrush уже фиксирует конверсию из ИИ-каналов в 4,4 раза выше органического поиска. Пока компания гоняется за форматом, шорт-лист формируется по другому правилу — и каждый потраченный на разметку квартал стоит позиции в этом шорт-листе.

Markdown — не единственный технический рычаг, который обещает преимущество в цитировании и не даёт его:

Эффект llms.txt: 37 894 домена и ноль преимущества в цитировании

Запросить стратегическую диагностику → · Обсудить пилот →