robots.txt для Joomla
robots.txt для Joomla
Это хорошо, когда поисковые системы часто посещают сайт и индексируют контент, но бывают случаи, когда робот индексирует страницы сайта не так как нам хочется.
Например, если у нас есть два варианта страницы и мы хотим исключить из сканирования одну, а то можно попасть под санкции поисковых систем за дублирование контента.
Кроме того, не стоит нагружать робот, зашедший на сайт, лишней информацией типа таблиц стилей, JavaScript и т.д. С помощью файла robot.txt можно задать определённые инструкции для роботов поисковиков. Как написать правильную статью для поисковых систем.
Что такое robots.txt?
Robots.txt представляет собой текстовой файл, который находится в корневом или главном каталоге сайта, который задаёт поисковым роботам параметры обхода страниц сайта.
На самом деле команды файла robots.txt отнюдь не обязательны для поисковых систем, но в целом их роботы иполняют прописанные директивы.
Основные директивы robots.txt.
Наиболее важная директива User-agent – она содержит название поискового робота. Если вы укажете название поискового робота в директиве User-agent, например: User-agent: Yandex то эти правила будет понимать только поисковик Яндекс
Если не указывать название поисковика, а поставить после директивы спецсимвол - "*" то есть так: User-agent: *
то все поисковые системы будут читать эти директивы.
Disallow: / – устанавливает запрет к доступу сайта
Disallow: /administrator – устанавливает запрет к страницам с URL начинающимся с - site.../administrator/.
Allow: / – разрешает доступ к сайту
Allow: /administrator – разрешает доступ к страницам c URL (начинающимся с site.../administrator/.
Host: – указывает адрес главного зеркала сайта ( учитывается только системой Яндекс).
"*" - специальный символ: пример User-agent: * – обращение абсолютно ко всем поисковым системам .
Если сайт расположен на движке Joomla, то используется стандартный файл robots.txt Стандартный файл robots.txt для сайтов на Joomla
User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /component/*
Disallow: /component/search/
Disallow: /component/content/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Можно и так, но сам я использую, когда делаю сайт на CMS Joomla, файл robots.txt c дополнениями и изменениями, который привожу ниже.
robots.txt для Joomlа
User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /logs/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
User-agent: Yandex
Disallow: /administrator/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Host: vash_sait...
Sitemap: http://site.../sitemap.xml или из компонента путь к вашей карте.