Как создать robots.txt: руководство по SEO и AI-краулерам

Robots.txt - это ваш GPS для поисковых и AI-краулеров. Простой текстовый файл в корне сайта говорит ботам, куда заходить, а куда нет. Звучит банально, но в эпоху, когда AI-краулеры (GPTBot, ClaudeBot, Google-Extended) качают контент для обучения моделей, правильно настроенный robots.txt становится инструментом стратегического контроля. Разбираемся, как его создать и не наделать ошибок.

Многие относятся к robots.txt как к файлу, который настроил когда-то разработчик и забыл. Но с ростом AI-трафика и появлением новых типов краулеров эта «забытая» настройка может стоить вам видимости в поиске - или, наоборот, незапланированного использования контента для обучения моделей.

Что такое robots.txt и зачем он нужен

Robots.txt - это текстовый файл, который указывает веб-роботам (поисковым краулерам и AI-скрейперам), какие страницы сайта можно сканировать, а какие нет. Перед тем как посетить страницу, поисковый бот проверяет robots.txt на предмет инструкций.

Базовый синтаксис выглядит так:

User-agent: *
Disallow: /private/
Allow: /public/
Sitemap: https://yoursite.com/sitemap.xml

Звёздочка после «User-agent» означает, что правило применяется ко всем ботам. «Disallow: /private/» запрещает сканирование папки /private/. «Sitemap» указывает путь к карте сайта.

Почему robots.txt важен для SEO

Зачем вообще запрещать ботам что-то на своём сайте? Ведь основная задача SEO - чтобы боты сканировали как можно больше страниц. Но есть нюанс.

У Googlebot есть понятие «краулинговый бюджет» - количество URL, которое Google может и хочет просканировать на вашем сайте за определённое время. Если у вас тысячи страниц с дублирующимся или техническим контентом (параметры сортировки, фильтры, служебные страницы), бот может потратить бюджет на них, а не на ваши ключевые страницы.

Основные пожиратели краулингового бюджета:

Фасетная навигация - URL-параметры для сортировки и фильтрации создают «бесконечное пространство», которое засасывает ботов
Дублирующийся контент - одна и та же информация на разных URL заставляет краулеры тратить время впустую
Ошибки и тупики - мягкие 404 и длинные цепочки редиректов сжигают краулинговый спрос
Производительность сервера - медленные ответы снижают количество страниц, которое Google может просканировать

Правильно настроенный robots.txt направляет ботов к вашему лучшему контенту. Это разница между ботом, который бесцельно бродит по техническому мусору, и ботом, который идёт прямо к страницам, приносящим трафик.

Как создать robots.txt: пошаговая инструкция

Шаг 1: Откройте текстовый редактор

Подойдёт любой plain text редактор - Notepad на Windows, TextEdit на Mac в режиме обычного текста. Главное - не Word и не другой форматированный редактор.

Шаг 2: Назовите файл правильно

Файл должен называться строго «robots.txt» (только строчные буквы). Если назвать иначе, краулеры его просто не найдут. Файл должен лежать в корне домена - например, вашсайт.рф/robots.txt. Для каждого поддомена и протокола (HTTP/HTTPS) нужен свой файл.

Шаг 3: Напишите правила

Базовая конструкция для всех краулеров, которая запрещает сканирование папки /admin/ и указывает на sitemap:

User-agent: *
Disallow: /admin/
Disallow: /tmp/
Sitemap: https://yoursite.com/sitemap.xml

Шаг 4: Сохраните и загрузите на сервер

Способ загрузки зависит от хостинга. Обычно это FTP, файловый менеджер хостинга или панель управления. Для WordPress может потребоваться плагин, так как CMS генерирует виртуальный robots.txt.

Как заблокировать AI-краулеры через robots.txt

Блокировка AI-краулеров даёт контроль над тем, как ваш контент используется для обучения моделей. Вот четыре краулера, о которых стоит знать:

GPTBot (OpenAI) - обучение моделей GPT
OAI-SearchBot (OpenAI) - поисковый краулер ChatGPT Search
ClaudeBot (Anthropic) - обучение Claude
Claude-SearchBot (Anthropic) - поисковый краулер Claude
Google-Extended (Google) - обучение AI-моделей Google
CCBot (Common Crawl) - питает десятки open-source моделей

Важное различие: блокировка GPTBot не блокирует OAI-SearchBot, а блокировка ClaudeBot не блокирует Claude-SearchBot. Если хотите остановить и обучение, и поиск, нужны отдельные правила для каждого.

Пример полной блокировки AI-краулеров:

User-agent: GPTBot
Disallow: /

User-agent: OAI-SearchBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Claude-SearchBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: CCBot
Disallow: /

Альтернативный подход: запретить всё по умолчанию и разрешить только нужные поисковые системы:

User-agent: *
Disallow: /

User-agent: Googlebot
Allow: /

User-agent: Bingbot
Allow: /

«Если AI-видимость - часть вашей стратегии, используйте llms.txt для направления AI-систем к лучшему контенту вместо полной блокировки. Баланс между защитой и видимостью - главный вопрос для SEO в 2026 году.»
- Нил Патель

Как проверить robots.txt

Google перенёс тестер robots.txt в Search Console. Чтобы проверить, как Google видит ваш файл:

Откройте Search Console → выберите свой сайт → Settings → Robots.txt report
Там отображается последняя версия, дата сканирования и ошибки парсинга
Для проверки конкретного URL используйте инструмент URL Inspection

Также можно просто открыть в браузере вашсайт.рф/robots.txt - это быстрый способ проверить, что файл доступен. Кстати, так можно подсмотреть, как конкуренты настраивают свои правила.

Типичные ошибки с robots.txt

Disallow: / на рабочем сайте - эта одна строка блокирует все URL от всех краулеров, включая главную страницу. Часто переезжает из staging-версии в продакшн
Блокировка CSS и JavaScript - Googlebot рендерит страницы как браузер, ему нужен доступ к стилям и скриптам. Блокировка ухудшает ранжирование
Путаница disallow и noindex - disallow запрещает сканирование, но не индексацию. Заблокированная страница может появиться в выдаче, если на неё ведут внешние ссылки. Для запрета индексации используйте noindex
Отсутствие файла - сайт без robots.txt будет просканирован полностью, но вы теряете контроль над краулинговым бюджетом и AI-краулерами

Что это значит для бизнеса

Во Владивостоке, как и везде, владельцы сайтов часто не задумываются о robots.txt до первой проблемы - падения трафика или обнаружения своего контента в ChatGPT. Правильная настройка этого файла - базовая гигиена, которая напрямую влияет на видимость в поиске и контроль над использованием контента AI-моделями.

Тренд 2026 года: AI-краулеры составляют уже более 50% веб-трафика (по данным Cloudflare). И доля будет расти. Вопрос не в том, блокировать их или нет, а в том, как настроить селективный доступ: открыть лучшее для индексации, но защитить стратегический контент от обучения моделей.