Предпочитают ли ИИ-краулеры Markdown. Контролируемый эксперимент
Исследование GolOps — 9 033 страницы, рандомизированных между Markdown и HTML, 28 000 живых обращений ИИ, четыре краулера. Один краулер уходит в HTML на −29,4%, три остаются ровными, payload в Markdown на 75,9% меньше.

Раз в несколько недель кто-нибудь с полной уверенностью заявляет: ИИ-краулеры обожают Markdown. Следующий с той же уверенностью говорит, что формат не значит ничего. Замер не делает почти никто. GolOps его сделал: один и тот же URL, два формата, четыре краулера. Краулеры между собой не сходятся.
GolOps рандомизировал 9 033 публичные страницы между двумя поверхностями — Markdown и HTML — и зафиксировал, что с каждой версией делают четыре разных ИИ-краулера. Поверх этого — 28 000 живых обращений ChatGPT-User в реальном времени. Главный результат: из четырёх краулеров сторону выбрал один. И это GPTBot — обучающий скрапер OpenAI, а не тот краулер, что решает, кого процитировать в живом ответе.
| Метрика | Значение |
|---|---|
| Страниц рандомизировано | 9 033 |
| Сплит Markdown / HTML | 4 516 / 4 517 |
| Живых обращений ИИ замерено | 28 000 |
| Экономия payload в Markdown | 75,9% |
Поверхность закреплена за URL: один и тот же адрес всегда отдаёт один и тот же формат.
Ключевые находки
−29,4% — GPTBot уходит в HTML. Единственный статистически устойчивый результат на доске. GPTBot почти не берёт Markdown-страницы: 2,5% против 31,9% по HTML (p<0,001). Но GPTBot — обучающий скрапер, он говорит о том, как отбирается корпус для будущих моделей, а не о том, кого процитируют сегодня.
+2,8% — OAI-SearchBot склоняется к Markdown. Краулер за ChatGPT Search достаёт Markdown-страницы чуть чаще (47,2% против 44,4%), но разрыв пока внутри шумовой полосы (p=0,189). Это единственная строка, на которой стоит держать руку.
−0,3% — ChatGPT-User не видит разницы. Живое обращение в реальном времени берёт Markdown и HTML практически одинаково (76,7% против 77,0%, p=0,859). В момент разговора формат не решает, какую страницу открыть. Решает вопрос пользователя.
75,9% — payload в Markdown. Та же страница в Markdown весит примерно четверть от HTML-версии. Дешевле скачать, быстрее распарсить. Если стоимость извлечения станет сигналом маршрутизации внутри лабораторий, этот разрыв начнёт работать.
Дизайн эксперимента
Каждая публичная страница получает одну из двух поверхностей — Markdown или HTML — по хэшу своего URL. Контент тот же, canonical тот же, формат разный. Краулеры не знают, что находятся в тесте, — они просто видят страницу. Поскольку поверхность закреплена за URL, один и тот же адрес всегда отдаёт один и тот же формат, и когда краулер возвращается, мы знаем, в какой он группе. Так сравнение остаётся чистым.
| Параметр | Значение |
|---|---|
| Страниц в тесте | 9 033 |
| Сплит | 50/50, случайный но стабильный (4 516 Markdown / 4 517 HTML) |
| Где замеряем эффект | 2 249 страниц рекомендаций — самые часто обходимые URL |
| Метод назначения | хэш(URL + ID эксперимента) → Markdown или HTML |
В тест входит каждая публичная индексируемая страница со стабильным URL. Страницы за логином, редиректы и превью исключены. Основной слой замера — страницы рекомендаций вида /ai-recommends/<продукт>/<аудитория> («лучшая ИИ-транскрипция для НКО» и подобные). Их тысячи, поэтому на этом срезе хватает объёма, чтобы поймать небольшие эффекты.
Три краулера OpenAI делают три разные работы
Большинство разборов сваливают краулеров OpenAI в одну кучу. Это ошибка измерения. Каждый делает свою работу, ходит по своему графику и реагирует на формат по-своему. По данным Vercel, ИИ-краулеры тянут сырой контент и не исполняют JavaScript — поэтому то, как вы отдаёте страницу, важнее, чем кажется. Если считать обходы GPTBot доказательством живых цитирований или читать цифры ChatGPT-User как индексацию для поиска — вы меряете не то.
OAI-SearchBot — индексный краулер поиска. Обходит стабильно, как поисковая машина. Тянет страницы в поисковый индекс OpenAI — ту систему, что решает, что всплывёт внутри ChatGPT Search. Если важно показаться, когда ChatGPT ищет в открытом вебе, это краулер, чьи предпочтения весят больше всего.
ChatGPT-User — живое извлечение. Открывает страницу в реальном времени, когда пользователь в ChatGPT задаёт вопрос и модель решает, что ей нужен контекст для ответа. Чистый спрос времени разговора. О чём бы ни спросил пользователь — идёт за страницей именно этот бот.
GPTBot — скрапер обучающих данных. Приходит тяжёлыми всплесками по графику. Тянет страницы в корпус для обучения будущих версий GPT. Говорит о предпочтениях обучающего конвейера, а не о том, процитируют ли вашу страницу, когда реальный пользователь говорит с ChatGPT сегодня. Как именно эти боты ходят по сайту и по каким графикам — мы разбирали отдельно в Когда ИИ приходит на ваш сайт. Анатомия 600 000 визитов краулеров.
Результаты: один устойчивый сигнал, три ещё движутся
На страницах рекомендаций плюс живое извлечение ChatGPT-User: из пяти краулеров чёткое предпочтение Markdown или HTML показывает один. Один склоняется в сторону, но данных пока мало. Три стоят ровно — одинаковый охват для обоих форматов.
| Краулер | Тип | Сдвиг | Markdown | HTML | Значимость |
|---|---|---|---|---|---|
| GPTBot | обучение | −29,4% | 2,5% (28 из 1 119) | 31,9% (361 из 1 130) | p<0,001 |
| OAI-SearchBot | поиск | +2,8% | 47,2% (528 из 1 119) | 44,4% (502 из 1 130) | p=0,189 |
| ChatGPT-User | взаимодействие | −0,3% | 76,7% | 77,0% | p=0,859 (ровно) |
| PerplexityBot | поиск | −1,3% | 8,4% (94 из 1 119) | 9,7% (110 из 1 130) | p=0,271 |
| ClaudeBot | обучение | −2,0% | 8,9% (100 из 1 119) | 11,0% (124 из 1 130) | p=0,107 |
Большой HTML-уклон GPTBot — единственный статистически закрытый результат на доске, и с ним мы аккуратны. GPTBot кормит будущие версии модели, а не отвечает за цитирование сегодня. Интересно, но менять под это сайт рано.
Строка, на которой стоит держать руку, — OAI-SearchBot. Это краулер за ChatGPT Search; когда ChatGPT идёт за свежими данными в открытый веб, посылает он именно его. Сейчас уклон в Markdown на несколько пунктов, но не настолько, чтобы быть уверенным статистически.
Остальные — ChatGPT-User, Perplexity, Claude — стоят примерно ровно. Markdown и HTML достаются примерно с одной частотой. Это логично: системы гонятся за вопросом пользователя, а не за форматом страницы. Ровная линия здесь и есть результат. В момент разговора важнее, о чём ваша страница, а не как вы её отдаёте.
Живое извлечение идёт за вопросом, а не за форматом
ChatGPT-User — не краулер на графике. Он открывает страницу посреди разговора, потому что кто-то спросил ChatGPT и модели понадобилась реальная страница для ответа. За 28 000 таких живых обращений на сайте спрос идёт за темами, о которых люди реально спрашивают, и распределяется примерно поровну между обеими группами эксперимента.
| Категория | Живых обращений за 7 дней |
|---|---|
| ai-transcription | 1 603 |
| automation | 1 310 |
| ai-image | 1 269 |
| vpn | 1 183 |
| payment-processing | 1 042 |
Контрольная проверка: ChatGPT-User достал 76,7% страниц, назначенных в Markdown, и 77,0% — назначенных в HTML. Разница 0,3% (p=0,859). Значит, разрывы между категориями выше — про то, о чём спрашивали люди, а не про то, какой группе досталось больше трафика.
Почему Markdown может вырваться вперёд
Уклон OAI-SearchBot в Markdown сейчас мал. Но вот структурная причина, по которой эта линия может расти. Снимите со стандартной HTML-страницы навигацию, скрипты, трекинговые пиксели и CSS-обвес — останется только ответ. Markdown-версия той же страницы — примерно четверть размера. Дешевле скачать, быстрее распарсить. Тренд уже признают на уровне инфраструктуры: Cloudflare запустил Markdown for Agents — отдачу Markdown-версий страниц ИИ-агентам ради экономии токенов.
| Формат | Доля payload |
|---|---|
| Markdown | 24% |
| HTML | 100% |
| Разница | −75,9% |
За время эксперимента 4 745 обращений мы отдали как Markdown и 5 322 — как HTML по рандомизированным URL. Совокупная экономия — 32,7% байт против отдачи всего как HTML. Если стоимость извлечения когда-нибудь станет сигналом маршрутизации внутри лабораторий — а минимум в одной, по нашей оценке, уже стала, — этот разрыв перестанет быть бесплатным.
Методология
Каждый замер строится из одного снимка. Если текст утверждает то, чего нет в данных, истина — снимок. Вот как устроен замер и чего он пока не может сказать.
- Закрепление поверхности. Каждая допущенная страница привязана к Markdown или HTML по хэшу своего URL: один и тот же адрес — одна и та же поверхность, каждый раз. Краулер не может увидеть обе версии.
- Головная метрика — покрытие на уровне страниц. Из всех страниц, назначенных в группу, какую долю краулер реально достал. Счётчики запросов и переданные байты считаем тоже, но как вторичный сигнал: несколько популярных URL могут перетянуть на себя сырой объём.
- Статистика. Различия между Markdown и HTML проверяются двухдолевым z-тестом и сообщаются как разрыв в процентных пунктах с p-значением.
- ChatGPT-User вынесен отдельно от OAI-SearchBot: это живое извлечение по запросу пользователя, а не фоновая индексация. Сигнал совсем другой.
Чего замер пока не может сказать. Боты опознаются по строке user-agent — верифицированного сигнала бота от Cloudflare в данных пока нет, поэтому ресурсный спуфер мог быть посчитан неверно. И мы меряем, достаёт ли краулер страницу, а не процитировал ли её ИИ в ответе. Это связанные, но не одинаковые вопросы.
Что забрать из эксперимента
Формат — это гигиена, а не рычаг. Четыре из пяти краулеров не показывают реального предпочтения: их сдвиги стоят внутри шумовой полосы. Сторону выбрал только GPTBot — обучающий скрапер, который склоняется к HTML на −29,4%, — но он кормит будущие версии модели, а не решает, кого процитировать сегодня. Markdown стоит держать: он не вредит, экономит до трети байт и снимает шум вокруг ответа. Но рассчитывать, что один формат поднимет цитируемость, — значит решать задачу не на том уровне.
Рычаг — не разметка страницы, а инфраструктура цитирования: попадает ли бренд в источники, на которые опирается модель по нужному сценарию покупателя. Этот слой и берёт под управление GolOps. Мы измеряем позицию компании в поле выбора через Индекс Контроля Выбора, разбираем, какие источники и сценарии её формируют, и переводим замер в приоритизированный план. Стратегический пилот закрывает первый цикл за 10–12 недель; Центр Управления держит контур в постоянном режиме на семи ИИ-системах.
Цена ошибки считается просто. Gartner прогнозирует, что к 2028 году 90% B2B-закупок пойдут через автономных ИИ-агентов, а Semrush уже фиксирует конверсию из ИИ-каналов в 4,4 раза выше органического поиска. Пока компания гоняется за форматом, шорт-лист формируется по другому правилу — и каждый потраченный на разметку квартал стоит позиции в этом шорт-листе.
Markdown — не единственный технический рычаг, который обещает преимущество в цитировании и не даёт его:
Эффект llms.txt: 37 894 домена и ноль преимущества в цитировании