Правильный robots.txt для DLE 9.8
До сих пор на форумах и сайтах вебмастеров обсуждается создание правильного robots.txt для DataLife Engine. Существует множество вариантов и рекомендаций по его содержанию. Осмелюсь предложить версию, которую рекомендую я.
Хочу сразу отметить, что рекомендованный в данном случае, это значит не подразумевающий продажу ссылок с максимального количества страниц в ссылочных биржах.
Вот он:
User-agent: * User-agent: * Disallow: /2008/ Disallow: /2009/ Disallow: /2010/ Disallow: /2011/ Disallow: /2012/ Disallow: /2013/ Disallow: /tags/ Disallow: /user/ Disallow: /favorites/ Disallow: /lastnews/ Disallow: /newposts/ Disallow: /catalog/ Disallow: /*page/ Disallow: /*print/ Disallow: /addnews.html Disallow: /statistics.html Disallow: /rules.html Disallow: /dle-rules-page.html Disallow: /engine/ Disallow: /*?*/ Sitemap: http://site.ru/sitemap.xml Host: site.ru
Строка архива за год
Disallow: /2013/
может быть у вас не одна в зависимости сколько лет работает ваш сайт и иметь вид, например:
Disallow: /2012/ Disallow: /2011/ Disallow: /2010/
Еще часто задаётся вопрос, а как же дубли по url, например: /index.php?subaction=userinfo и /index.php?do=lostpassword
для этого и неверных адресов и добавлено:
Disallow: /*?*
Также вы можете закрыть от индексации страницы пагинации:
Disallow: /*page/
И не забудьте в строках Sitemap и Host заменить site.ru на ваш домен.
В Sitemap укажите url к карты сайта, его можно узнать в админке в разделе "Карта сайта для Google и Yandex".
В Host укажите ваш домен, учитывая его основное зеркало, т.е. с www или без него, для этого и служит значение Host, и вводится только домен основного зеркала, а не полный url сайта.
Кроме того, так как Host понимают не все роботы, рекомендуется его добавлять в конце файла robots.txt.
Robots.txt нам нужен, но есть ещё один способ управления поисковым роботом - мета-тег robots, как это сделать можно прочитать здесь.