robots.txt для Joomla

robots.txt для Joomla

robots.txt для JoomlaЭто хорошо, когда поисковые системы часто посещают сайт и индексируют контент, но бывают случаи, когда робот индексирует страницы сайта не так как нам хочется.

Например, если у нас есть два варианта страницы  и мы хотим исключить из сканирования одну, а то  можно попасть под санкции поисковых систем за дублирование контента.

 

Кроме того, не стоит нагружать робот, зашедший на сайт, лишней информацией типа таблиц стилей, JavaScript и т.д. С помощью файла robot.txt можно задать определённые инструкции для роботов поисковиков. Как написать правильную статью для поисковых систем.

Что такое robots.txt?

Robots.txt представляет собой текстовой файл, который находится в корневом или главном каталоге сайта, который задаёт поисковым роботам параметры обхода страниц сайта.
На самом деле команды файла robots.txt отнюдь не обязательны для поисковых систем, но в целом их роботы иполняют прописанные директивы. 
Основные директивы robots.txt.
Наиболее важная директива User-agent – она содержит название поискового робота. Если вы укажете название поискового робота в директиве User-agent, например: User-agent: Yandex то эти правила будет понимать только поисковик Яндекс
Если не указывать название поисковика, а поставить после директивы спецсимвол - "*" то есть так: User-agent: *
то все поисковые системы будут читать эти директивы.
Disallow: / – устанавливает запрет к доступу сайта 
Disallow: /administrator – устанавливает запрет к страницам с URL начинающимся с - site.../administrator/. 
Allow: / – разрешает доступ к сайту 
Allow: /administrator – разрешает доступ к страницам c URL (начинающимся с site.../administrator/. 
Host: – указывает адрес главного зеркала сайта ( учитывается только системой Яндекс). 
"*" - специальный символ: пример User-agent: * – обращение абсолютно ко всем поисковым системам . 
Если сайт расположен на движке Joomla, то используется стандартный файл robots.txt Стандартный файл robots.txt для сайтов на Joomla

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /component/*
Disallow: /component/search/
Disallow: /component/content/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/

Можно и так, но сам я использую, когда делаю сайт на CMS Joomla, файл robots.txt c дополнениями и изменениями, который привожу ниже.

robots.txt для Joomlа

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /logs/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/

User-agent: Yandex
Disallow: /administrator/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Host: vash_sait...
Sitemap: http://site.../sitemap.xml или из компонента путь к вашей карте.