GolOps
Назад к блогу
ИсследованиеЯзыковые модели

Эффект llms.txt: 37 894 домена и ноль преимущества в цитировании

Исследование GolOps — 37 894 домена, цитируемых ИИ, просканированы на наличие llms.txt. У 13,3% файл есть. Преимущество в цитировании — ноль. Mann-Whitney U p=0,85. Разбор популярного мифа на данных.

Команда GolOpsКоманда GolOps
Эффект llms.txt: 37 894 домена и ноль преимущества в цитировании
Эффект llms.txt: 37 894 домена и ноль преимущества в цитировании
GolOps Lab

Вокруг файла llms.txt сложился отдельный нарратив: положи текстовый файл в корень сайта — и ИИ-системы начнут цитировать тебя чаще. Его подают как тот самый «один приём», который двигает ИИ-видимость. Данные этого не показывают.

GolOps просканировал 37 894 домена, которые ИИ-системы реально цитируют в своих ответах. У 5 035 из них (13,3%) есть llms.txt. Преимущество в частоте цитирования у этой группы — статистический ноль. Mann-Whitney U даёт p=0,85, и это примерно максимально далёкая от значимости точка, какую можно получить.

МетрикаЗначение
Доменов просканировано37 894
Цитирований проанализировано337 000+
Брендовых срезов882
Доля доменов с llms.txt13,3%
Mann-Whitney Up=0,85

Корпус: домены с двумя и более появлениями в ИИ-ответах

Ключевые находки

13,3% — доля с llms.txt. Из всех доменов, которые ИИ цитирует, файл есть у одного из восьми. Те, кто его ставит, делают ставку на будущее, а преимущества сегодня не получают.

6,8 против 6,7 — среднее цитирований. Домены с llms.txt собирают в среднем 6,8 цитирования, без него — 6,7. Разница неотличима от шума. Медиана в обеих группах — ровно 3,0.

6% — адопция в топ-50. Среди пятидесяти самых цитируемых доменов файл есть лишь у 6%. Чем выше домен в рейтинге цитируемости, тем реже у него llms.txt. Стандарт ставят те, кто надеется на видимость, а не те, у кого она уже есть.

24,1% против 0% — перекос по категориям. Адопцию ведут SaaS и dev-инструменты — ровно то сообщество, что предложило стандарт. Справочники и площадки отзывов — на нуле. И именно у них самая высокая цитируемость.

Кривая адопции по уровням цитируемости

Если ранжировать домены по числу цитирований в ИИ и смотреть на адопцию по срезам, проявляется обратная зависимость:

Срез по цитируемостиДоля с llms.txt
Топ-506,0%
Топ-1007,0%
Топ-25013,6%
Топ-50014,4%
Топ-100015,3%
Топ-250015,9%
Топ-500016,1%
Топ-1000015,7%
Топ-2500013,7%
Полная выборка (37 894)13,3%

Самые цитируемые домены в ИИ файла не ставят. По мере спуска по рейтингу адопция сначала растёт, потом снова оседает. Будь llms.txt рычагом видимости, кривая шла бы в обратную сторону: верхушка была бы насыщена файлом. Она пустует.

Если самые цитируемые домены не используют llms.txt, что тогда определяет ИИ-цитирование? Данные указывают на авторитет домена, глубину контента и присутствие в обучающих данных, а не на файл в корне.

Вердикт: помогает ли файл

Прямое сравнение двух групп отвечает на вопрос.

ПоказательС llms.txtБез llms.txt
Среднее цитирований на домен6,86,7
Медиана цитирований3,03,0
Mann-Whitney Up=0,85

Среднее различается на одну десятую цитирования — на масштабе 37 894 доменов это неотличимо от шума. Медианы совпадают точно: обе группы садятся на 3,0.

На полной выборке тест формально становится значимым (p<0,001) — но исключительно из-за размера выборки. Размер эффекта при этом r=−0,065, ниже порога 0,1 даже для «малого» эффекта. Это статистическая значимость без практической. Наличие llms.txt не даёт измеримого преимущества в частоте ИИ-цитирования. Что бы ни управляло выбором источников в ИИ-ответах, это не llms.txt. К тому же выводу пришёл и независимый анализ SE Ranking на 300 000 доменов: файл нашёлся у 10,13% и не показал измеримой связи с частотой ИИ-цитирования.

Кто ставит файл: эхо технического сообщества

Если разложить адопцию по категориям доменов, видно, кто двигает стандарт:

КатегорияАдопцияСоотношение
SaaS / dev-инструменты24,1%97 из 403
E-commerce18,2%10 из 55
СМИ и медиа15,7%52 из 332
Социальные платформы15,7%84 из 536
Госсектор / академия11,5%9 из 58
Справочники / вики0,0%0 из 36
Площадки отзывов0,0%0 из 39

Адопцию ведут SaaS и dev-инструменты на 24,1% — ровно то сообщество, которое и предложило стандарт: llms.txt предложил Джереми Ховард из Answer.AI в сентябре 2024 года. Госсектор и академия — 1,5% от соответствующего показателя верхних категорий, справочники и площадки отзывов — ноль.

Здесь же кроется смещение выборки. Сайты, которые охотнее всего ставят llms.txt, и без него технически зрелые, хорошо структурированы и дружелюбны к API. Эти свойства сами по себе коррелируют с ИИ-видимостью. Файл едет вторым вагоном, а не тянет состав.

Категории с наивысшим авторитетом домена — справочники, площадки отзывов, академия — имеют наинизшую адопцию llms.txt. Домены, доминирующие в ИИ-цитировании, в файле не нуждаются: их цитируют за авторитет бренда и качество контента.

Лидеры цитирования: с файлом и без

Десять самых цитируемых доменов, у которых llms.txt есть:

ДоменЦитирований
prnewswire.com1 070
github.com449
chainalysis.com291
accio.com236
shopify.com202
essfeed.com200
sodimac.cl160
slashdot.org143
marketsandmarkets.com137
trmlabs.com134

Десять самых цитируемых доменов, у которых файла нет:

ДоменЦитирований
reddit.com2 769
techradar.com2 499
reuters.com1 915
linkedin.com1 579
forbes.com1 479
youtube.com1 344
wired.com1 244
axios.com1 015
ft.com945
theverge.com943

Колонка без файла читается как перечень опор всего интернета. Reddit, Reuters, Forbes, LinkedIn доминируют в ИИ-цитировании без какой-либо оптимизации под llms.txt. Самый цитируемый адоптер — prnewswire.com с 1 070 цитированиями — отстаёт от Reddit почти втрое. Авторитет выигрывает у технического сигнала.

Та же картина в композитном индексе

Чтобы исключить артефакт сырого подсчёта, GolOps сверил группы по композитному показателю ИИ-видимости. Он сводит присутствие, ранг, упоминания и тональность по нескольким ИИ-моделям в шкалу 0–100. Срез построен на 205 брендах, у которых есть и аудит сайта, и активный мониторинг видимости.

Показатель видимости (0–100)С llms.txtБез llms.txt
Медиана23,123,6
Среднее27,826,3

Разрыв в 0,4 пункта по медиане — внутри шума, причём в пользу группы без файла. Смотрим ли мы на сырые цитирования или на композитный показатель — результат один: llms.txt сегодня не входит в число факторов, по которым ИИ-системы формируют рекомендацию.

Что это значит на самом деле

Наличие llms.txt сообщает ИИ-системам «мы хотим, чтобы нас понимали модели», но это сигнал, а не рычаг: текущие модели не читают и не приоритизируют этот файл при сборке цитирований. Скепсис разделяют и в самих поисковиках: Джон Мюллер из Google сравнил llms.txt с мета-тегом keywords — сигналом, который давно игнорируется. Цитирование определяют обучающие данные: авторитетные домены, часто линкуемый контент, размеченные страницы, тематическая релевантность. Текстовый файл по адресу /llms.txt не переписывает задним числом то, что модель уже выучила.

Это не значит, что файл бесполезен. Он дёшев во внедрении и полезен как практика структурирования, и когда модели начнут использовать его на этапе retrieval-augmented generation, ранние адоптеры могут выиграть. Но сегодня ИИ-видимость двигают вещи поглубже: авторитетный контент, сильный профиль ссылок, размеченные данные, регулярная публикация, тематическая экспертиза. Что именно на уровне страницы делает её пригодной для цитаты, мы разбирали в «Анатомии ИИ-цитирования». Файл — страховка на будущее, а не способ попасть в выбор сейчас.

Методология

Что лежит в основе цифр:

  • 882 брендовых среза дали 337 000+ цитирований по 102 000+ уникальных доменов — агрегированные данные ИИ-ответов.
  • 37 894 домена — отобраны как имеющие два и более появления в цитированиях; на них и проводился анализ.
  • Детекция llms.txt — асинхронные HTTP-проверки /llms.txt с валидацией содержимого, чтобы отсеять HTML-страницы ошибок, мягкие 404 и редиректы на логин, отдающие статус 200.
  • Непараметрический тест — Mann-Whitney U вместо t-теста: распределения цитирований сильно скошены вправо.
  • Контроль конфаундеров — адоптеры llms.txt не отличаются систематически по баллам аудита сайта, что снимает версию «дело в качестве сайта, а не в файле».
  • Качество файлов — среди адоптеров у 89% есть заголовок, у 98% — URL, 79% набирают 4/4 по рубрике качества. Файлы реализованы хорошо. Они просто не двигают цитирование.

Источник — производственные данные мониторинга ИИ-видимости по 882 брендам. Измеряется то, что модели реально выдают, а не идеальные условия выдачи.

Вывод для практики

Миф обещает простую сделку: один файл в корне сайта — и ИИ-системы начинают цитировать вас чаще. Данные эту сделку не подтверждают. На 37 894 доменах группа с llms.txt и группа без него цитируются неотличимо: p=0,85, размер эффекта ниже порога даже для «малого». Преимущества нет ни в сырых цитированиях, ни в композитном индексе видимости. Вера в «один приём», закрывающий вопрос ИИ-видимости, держится на удобстве, а не на наблюдениях.

Видимость в ИИ — это не файл, а инфраструктура: авторитет домена, глубина контента, присутствие в обучающем корпусе и контур, который всё это измеряет и корректирует. Именно этот контур GolOps берёт под управление. Мы измеряем позицию компании в поле выбора через Индекс Контроля Выбора, разбираем, какие источники и сценарии её формируют, и переводим замер в приоритизированный план. Стратегический пилот закрывает первый цикл за 10–12 недель; Центр Управления держит контур в постоянном режиме на семи ИИ-системах. Это и есть ответ уровня инфраструктуры — там, где один файл бессилен.

Ещё один технический сигнал, который не работает так, как обещают:

Предпочитают ли ИИ-краулеры Markdown. Контролируемый эксперимент

Сколько стоит вера в миф

Компания, которая поставила llms.txt и сочла задачу закрытой, остаётся ровно так же невидимой, как и до файла: шорт-лист формируется без неё, закупочный сценарий проходит без неё. Gartner прогнозирует, что к 2028 году 90% B2B-закупок пойдут через автономных ИИ-агентов, а Semrush уже фиксирует конверсию из ИИ-каналов в 4,4 раза выше органического поиска — то есть реальное поле смещается, пока бюджет уходит на нерычаг. Цена этой веры измеряется не в файле, а в кварталах решений, принятых без вас в комнате: каждый такой квартал — это упущенная доля от тех самых 90%.

Запросить стратегическую диагностику → · Обсудить пилот →