Дубли страниц в Drupal. Как убрать через robots.txt

Дубли страниц, Drupal, robots.txt

Все друполоводы сталкиваются с проблемой дублей страниц. Увы, но и как другие готовые движки, Друпал тоже не идеален и требует доводки.

Дубли страниц в Друпал, как их убрать


Первое что я сделал, это поставил модуль Global Redirect (Глобал Редирект). Но увы, он не убирает все дубли! Если вы посмотрите на свои сайты, там есть много страниц вида:

1) taxonomy/term/91/0
2) /tagadelic/chunk/5
3) taxonomy/term/82/0?page=3
4) node/470/9
5) ?122esdfdf34

Больше всего, меня доставал пункт 5, откуда такая тарабарщина в адресе и как она берется? Ответ на этот вопрос можно найти в гугле, ну а в общих чертах эти адреса генерируют методы языка php. Как же убрать эти дубли?

Самый простой способ через файл robots.txt. Все что нужно сделать это добавить туда такие строчки:

User-agent: *
Disallow: /database/
Disallow: /includes/
Disallow: /misc/
Disallow: /modules/
Disallow: /sites/
Disallow: /themes/
Disallow: /scripts/
Disallow: /updates/
Disallow: /profiles/
Disallow: /xmlrpc.php
Disallow: /cron.php
Disallow: /update.php
Disallow: /install.php
Disallow: /index.php
Disallow: /admin/
Disallow: /comment/reply/
Disallow: /contact/
Disallow: /logout/
Disallow: /search/
Disallow: /user/register/
Disallow: /user/password/
Disallow: /user/login/
Disallow: /top-rated-
Disallow: /messages/
Disallow: /book/export/
Disallow: /user2userpoints/
Disallow: /myuserpoints/
Disallow: /tagadelic/
Disallow: /referral/
Disallow: /aggregator/
Disallow: /files/pin/
Disallow: /your-votes
Disallow: /comments/recent
Disallow: /*/edit/
Disallow: /*/delete/
Disallow: /*/export/html/
Disallow: /taxonomy/term/*/0$
Disallow: /*/edit$
Disallow: /*/outline$
Disallow: /*/revisions$
Disallow: /*/contact$
Disallow: /*downloadpipe
Disallow: /node$
Disallow: /node/*/track$
Disallow: /*&
Disallow: /*%
Disallow: /*?page=0
Allow: /*?page=
Disallow: /*?
Host: ваш.сайт


Признаюсь, я честно содрал эти строчки из поста на сайте: http://noindex.by/drupal/pravilnyj-robots-txt-dlya-drupala-s-kommentariyami.

Там же кстати можно почитать и детальные комментарии к этим строчкам. После исправления файла robots.txt(он кстати лежит в корне вашего сайта), дубли страниц были убраны.

Правильный файл robots.txt есть во вложении. Можете его качать и использовать.