robots.txt
Текстовый файл с инструкциями для поисковых роботов: какие страницы индексировать, а какие нет.
robots.txt — это первый файл который смотрит поисковый робот заходя на сайт. Он лежит в корне сайта и содержит правила: какие разделы закрыть от индексации, где находится карта сайта, с какой скоростью сканировать страницы.
Основные директивы
- User-agent — для какого робота правило (Yandex, Googlebot, * для всех)
- Disallow — какие страницы запретить к индексации
- Allow — исключения из запрета
- Sitemap — путь к XML-карте сайта
- Host — главное зеркало сайта
Типичные ошибки
- Закрыт весь сайт директивой Disallow: /
- Файл пустой — робот индексирует всё подряд
- Синтаксические ошибки — робот игнорирует файл
- Закрыты CSS и JS файлы — Google рекомендует их открывать