Как запретить индексирование дублей страниц в файле robots.txt

Как запретить индексирование дублей страниц 

как запретить индексацию дублей страницДля улучшения восприятия сайта поисковыми системами , необходимо по мере возможности избавляться от дублей страниц.

Одни и те же страницы попадают в индекс, только с разными адресными ссылками. Это утяжеляет сайт в глазах поисковиков, затрудняет работу роботам и как следствие замедляет индексирование сайта в целом.

 

При использовании CMS Joomla, веб-мастер может обнаружить, что в индекс поисковых систем попадает масса дублей страниц. При включении SEF - ЧПУ (человеко понятные URL) или корректировке адресной ссылки страницы, этот мусор в виде ненужных уже дублей будет долгое время висеть балластом на вашем сайте. Для того, чтобы избавиться от них необходимо в файле robot.txt внести некоторые изменения, которые запретят индексирование ненужных страниц. 

Иногда можно обнаружить, что главная страница сайта открывается по двум адресам, например: Site.ru и ещё Site.ru/index.php. ( см. как убрать index.php из адресной строки страницы). Посмотрите как у вас, если сервер во втором случае выдаст: ошибка 404, то всё нормально, а если откроется главная страница, то в таком случае лучше в файле robots.txt прописать запрет индексации страниц с index.php.

Так же посмотреть какая страница вообще индексируется или нет (в Яндекс), можно на сервисе Яндекс.Вебмастер

Как сделать? Как запретить индексацию дублей страниц с index.php.

В файл robots.txt нужно добавить директиву Disallow: /index.php/.

Но в тоже время в Joomla есть файлы с index.php, которые нам нужны, например файл карты сайта -sitemap (/index.php?option=com_xmap&sitemap=1). Чтобы разрешить его индексацию пропишем в файле -  Allow: /index.php?option=com_xmap&sitemap=1.

Таким образом мы запретим поисковому роботу индексировать ненужные дубли страниц в URL которых входит запись index.php. В тоже время оставим для индексации нужные страницы.