﻿---
title: Предпочитают ли ИИ-краулеры Markdown. Контролируемый эксперимент
description: Исследование GolOps — 9 033 страницы, рандомизированных между Markdown и HTML, 28 000 живых обращений ИИ, четыре краулера. Один краулер уходит в HTML на −29,4%, три остаются ровными, payload в Markdown на 75,9% меньше.
date: 2026-01-14T00:00:00Z
lastmod: 2026-06-02T00:00:00Z
published: true
categories: [research, llm]
author: golops
---

Раз в несколько недель кто-нибудь с полной уверенностью заявляет: ИИ-краулеры обожают Markdown. Следующий с той же уверенностью говорит, что формат не значит ничего. Замер не делает почти никто. GolOps его сделал: один и тот же URL, два формата, четыре краулера. Краулеры между собой не сходятся.

GolOps рандомизировал 9 033 публичные страницы между двумя поверхностями — Markdown и HTML — и зафиксировал, что с каждой версией делают четыре разных ИИ-краулера. Поверх этого — 28 000 живых обращений ChatGPT-User в реальном времени. Главный результат: из четырёх краулеров сторону выбрал один. И это GPTBot — обучающий скрапер OpenAI, а не тот краулер, что решает, кого процитировать в живом ответе.

| Метрика | Значение |
|---|---|
| Страниц рандомизировано | 9 033 |
| Сплит Markdown / HTML | 4 516 / 4 517 |
| Живых обращений ИИ замерено | 28 000 |
| Экономия payload в Markdown | 75,9% |

*Поверхность закреплена за URL: один и тот же адрес всегда отдаёт один и тот же формат.*

## Ключевые находки

**−29,4% — GPTBot уходит в HTML.** Единственный статистически устойчивый результат на доске. GPTBot почти не берёт Markdown-страницы: 2,5% против 31,9% по HTML (p&lt;0,001). Но GPTBot — обучающий скрапер, он говорит о том, как отбирается корпус для будущих моделей, а не о том, кого процитируют сегодня.

**+2,8% — OAI-SearchBot склоняется к Markdown.** Краулер за ChatGPT Search достаёт Markdown-страницы чуть чаще (47,2% против 44,4%), но разрыв пока внутри шумовой полосы (p=0,189). Это единственная строка, на которой стоит держать руку.

**−0,3% — ChatGPT-User не видит разницы.** Живое обращение в реальном времени берёт Markdown и HTML практически одинаково (76,7% против 77,0%, p=0,859). В момент разговора формат не решает, какую страницу открыть. Решает вопрос пользователя.

**75,9% — payload в Markdown.** Та же страница в Markdown весит примерно четверть от HTML-версии. Дешевле скачать, быстрее распарсить. Если стоимость извлечения станет сигналом маршрутизации внутри лабораторий, этот разрыв начнёт работать.

## Дизайн эксперимента

Каждая публичная страница получает одну из двух поверхностей — Markdown или HTML — по хэшу своего URL. Контент тот же, canonical тот же, формат разный. Краулеры не знают, что находятся в тесте, — они просто видят страницу. Поскольку поверхность закреплена за URL, один и тот же адрес всегда отдаёт один и тот же формат, и когда краулер возвращается, мы знаем, в какой он группе. Так сравнение остаётся чистым.

| Параметр | Значение |
|---|---|
| Страниц в тесте | 9 033 |
| Сплит | 50/50, случайный но стабильный (4 516 Markdown / 4 517 HTML) |
| Где замеряем эффект | 2 249 страниц рекомендаций — самые часто обходимые URL |
| Метод назначения | хэш(URL + ID эксперимента) → Markdown или HTML |

В тест входит каждая публичная индексируемая страница со стабильным URL. Страницы за логином, редиректы и превью исключены. Основной слой замера — страницы рекомендаций вида `/ai-recommends/<продукт>/<аудитория>` («лучшая ИИ-транскрипция для НКО» и подобные). Их тысячи, поэтому на этом срезе хватает объёма, чтобы поймать небольшие эффекты.

## Три краулера OpenAI делают три разные работы

Большинство разборов сваливают краулеров OpenAI в одну кучу. Это ошибка измерения. Каждый делает свою работу, ходит по своему графику и реагирует на формат по-своему. По данным [Vercel](https://vercel.com/blog/the-rise-of-the-ai-crawler), ИИ-краулеры тянут сырой контент и не исполняют JavaScript — поэтому то, как вы отдаёте страницу, важнее, чем кажется. Если считать обходы GPTBot доказательством живых цитирований или читать цифры ChatGPT-User как индексацию для поиска — вы меряете не то.

**OAI-SearchBot — индексный краулер поиска.** Обходит стабильно, как поисковая машина. Тянет страницы в поисковый индекс OpenAI — ту систему, что решает, что всплывёт внутри ChatGPT Search. Если важно показаться, когда ChatGPT ищет в открытом вебе, это краулер, чьи предпочтения весят больше всего.

**ChatGPT-User — живое извлечение.** Открывает страницу в реальном времени, когда пользователь в ChatGPT задаёт вопрос и модель решает, что ей нужен контекст для ответа. Чистый спрос времени разговора. О чём бы ни спросил пользователь — идёт за страницей именно этот бот.

**GPTBot — скрапер обучающих данных.** Приходит тяжёлыми всплесками по графику. Тянет страницы в корпус для обучения будущих версий GPT. Говорит о предпочтениях обучающего конвейера, а не о том, процитируют ли вашу страницу, когда реальный пользователь говорит с ChatGPT сегодня. Как именно эти боты ходят по сайту и по каким графикам — мы разбирали отдельно в [Когда ИИ приходит на ваш сайт. Анатомия 600 000 визитов краулеров](/publications/ai-crawler-discovery).

## Результаты: один устойчивый сигнал, три ещё движутся

На страницах рекомендаций плюс живое извлечение ChatGPT-User: из пяти краулеров чёткое предпочтение Markdown или HTML показывает один. Один склоняется в сторону, но данных пока мало. Три стоят ровно — одинаковый охват для обоих форматов.

| Краулер | Тип | Сдвиг | Markdown | HTML | Значимость |
|---|---|---|---|---|---|
| GPTBot | обучение | −29,4% | 2,5% (28 из 1 119) | 31,9% (361 из 1 130) | p&lt;0,001 |
| OAI-SearchBot | поиск | +2,8% | 47,2% (528 из 1 119) | 44,4% (502 из 1 130) | p=0,189 |
| ChatGPT-User | взаимодействие | −0,3% | 76,7% | 77,0% | p=0,859 (ровно) |
| PerplexityBot | поиск | −1,3% | 8,4% (94 из 1 119) | 9,7% (110 из 1 130) | p=0,271 |
| ClaudeBot | обучение | −2,0% | 8,9% (100 из 1 119) | 11,0% (124 из 1 130) | p=0,107 |

Большой HTML-уклон GPTBot — единственный статистически закрытый результат на доске, и с ним мы аккуратны. GPTBot кормит будущие версии модели, а не отвечает за цитирование сегодня. Интересно, но менять под это сайт рано.

Строка, на которой стоит держать руку, — OAI-SearchBot. Это краулер за ChatGPT Search; когда ChatGPT идёт за свежими данными в открытый веб, посылает он именно его. Сейчас уклон в Markdown на несколько пунктов, но не настолько, чтобы быть уверенным статистически.

Остальные — ChatGPT-User, Perplexity, Claude — стоят примерно ровно. Markdown и HTML достаются примерно с одной частотой. Это логично: системы гонятся за вопросом пользователя, а не за форматом страницы. Ровная линия здесь и есть результат. В момент разговора важнее, о чём ваша страница, а не как вы её отдаёте.

## Живое извлечение идёт за вопросом, а не за форматом

ChatGPT-User — не краулер на графике. Он открывает страницу посреди разговора, потому что кто-то спросил ChatGPT и модели понадобилась реальная страница для ответа. За 28 000 таких живых обращений на сайте спрос идёт за темами, о которых люди реально спрашивают, и распределяется примерно поровну между обеими группами эксперимента.

| Категория | Живых обращений за 7 дней |
|---|---|
| ai-transcription | 1 603 |
| automation | 1 310 |
| ai-image | 1 269 |
| vpn | 1 183 |
| payment-processing | 1 042 |

Контрольная проверка: ChatGPT-User достал 76,7% страниц, назначенных в Markdown, и 77,0% — назначенных в HTML. Разница 0,3% (p=0,859). Значит, разрывы между категориями выше — про то, о чём спрашивали люди, а не про то, какой группе досталось больше трафика.

## Почему Markdown может вырваться вперёд

Уклон OAI-SearchBot в Markdown сейчас мал. Но вот структурная причина, по которой эта линия может расти. Снимите со стандартной HTML-страницы навигацию, скрипты, трекинговые пиксели и CSS-обвес — останется только ответ. Markdown-версия той же страницы — примерно четверть размера. Дешевле скачать, быстрее распарсить. Тренд уже признают на уровне инфраструктуры: [Cloudflare запустил Markdown for Agents](https://blog.cloudflare.com/markdown-for-agents/) — отдачу Markdown-версий страниц ИИ-агентам ради экономии токенов.

| Формат | Доля payload |
|---|---|
| Markdown | 24% |
| HTML | 100% |
| Разница | −75,9% |

За время эксперимента 4 745 обращений мы отдали как Markdown и 5 322 — как HTML по рандомизированным URL. Совокупная экономия — **32,7%** байт против отдачи всего как HTML. Если стоимость извлечения когда-нибудь станет сигналом маршрутизации внутри лабораторий — а минимум в одной, по нашей оценке, уже стала, — этот разрыв перестанет быть бесплатным.

## Методология

Каждый замер строится из одного снимка. Если текст утверждает то, чего нет в данных, истина — снимок. Вот как устроен замер и чего он пока не может сказать.

- **Закрепление поверхности.** Каждая допущенная страница привязана к Markdown или HTML по хэшу своего URL: один и тот же адрес — одна и та же поверхность, каждый раз. Краулер не может увидеть обе версии.
- **Головная метрика — покрытие на уровне страниц.** Из всех страниц, назначенных в группу, какую долю краулер реально достал. Счётчики запросов и переданные байты считаем тоже, но как вторичный сигнал: несколько популярных URL могут перетянуть на себя сырой объём.
- **Статистика.** Различия между Markdown и HTML проверяются двухдолевым z-тестом и сообщаются как разрыв в процентных пунктах с p-значением.
- **ChatGPT-User вынесен отдельно** от OAI-SearchBot: это живое извлечение по запросу пользователя, а не фоновая индексация. Сигнал совсем другой.

Чего замер пока не может сказать. Боты опознаются по строке user-agent — верифицированного сигнала бота от Cloudflare в данных пока нет, поэтому ресурсный спуфер мог быть посчитан неверно. И мы меряем, достаёт ли краулер страницу, а не процитировал ли её ИИ в ответе. Это связанные, но не одинаковые вопросы.

## Что забрать из эксперимента

Формат — это гигиена, а не рычаг. Четыре из пяти краулеров не показывают реального предпочтения: их сдвиги стоят внутри шумовой полосы. Сторону выбрал только GPTBot — обучающий скрапер, который склоняется к HTML на −29,4%, — но он кормит будущие версии модели, а не решает, кого процитировать сегодня. Markdown стоит держать: он не вредит, экономит до трети байт и снимает шум вокруг ответа. Но рассчитывать, что один формат поднимет цитируемость, — значит решать задачу не на том уровне.

Рычаг — не разметка страницы, а инфраструктура цитирования: попадает ли бренд в источники, на которые опирается модель по нужному сценарию покупателя. Этот слой и берёт под управление GolOps. Мы измеряем позицию компании в поле выбора через Индекс Контроля Выбора, разбираем, какие источники и сценарии её формируют, и переводим замер в приоритизированный план. Стратегический пилот закрывает первый цикл за 10–12 недель; Центр Управления держит контур в постоянном режиме на семи ИИ-системах.

Цена ошибки считается просто. Gartner прогнозирует, что к 2028 году 90% B2B-закупок пойдут через автономных ИИ-агентов, а Semrush уже фиксирует конверсию из ИИ-каналов в 4,4 раза выше органического поиска. Пока компания гоняется за форматом, шорт-лист формируется по другому правилу — и каждый потраченный на разметку квартал стоит позиции в этом шорт-листе.

**Markdown — не единственный технический рычаг, который обещает преимущество в цитировании и не даёт его:**

[**Эффект llms.txt: 37 894 домена и ноль преимущества в цитировании**](/publications/llms-txt-effect)

[Запросить стратегическую диагностику →](https://golops.io/position) · [Обсудить пилот →](https://golops.io/pilot)
