Главная » Оптимизация » Ещё раз о правильном файле robots.txt для DLE

Ещё раз о правильном файле robots.txt для DLE

  • Оптимизация

Ещё раз о правильном файле robots.txt для DLE

О robots.txt написано уже очень много, советы и примеры как правильно его составить существуют на всех ресурсах для веб-мастеров в сети, но оказывается, что эта тема до сих пор актуальна и веб-мастера снова и снова поднимают топики на seo-форумах рунета. Сегодня попробую обобщить информацию и написать как это сделать правильно для DLE, причем не просто сайта построенного на DataLife Engine, а для СДЛ.

Тема наиболее правильного файла robots.txt обсуждалась при моей участии ранее на серче, потом на провеббе, а совсем недавно на мауле, причём из последнего я сам того не ожидая извлёк полезную информацию.



На форуме провебба свою версию robots.txt предлагает asmakovec2, она у него даже выведена в профиле. Версия его универсальна и оспаривать там нечего, поэтому вернусь к полезной информации, которую я извлёк из топика о рабочем robots.txt на мауле.
Родилась она в процессе обсуждения ошибки новичков, когда добавляя в robots.txt запрет на индексирование админки, они указывали имя файла админки, тем самым нарушая безопасность своего сайта:
Disallow: /admin.php

что делать нельзя, иначе злоумышленник, получить пусть небольшую, но иногда необходимую для него информацию из доступного для всех файла robots.txt.
Но идея закрытия от индексирования админки сама верна, особенно в свете развития аудиторских сервисов Поисковых Систем, например Метрики от Яндекса, отслеживающих переходы, из которых извлекается информация и затем скрытые каталоги сайтов оказываются в индексе.
Я ранее реализовывал это добавляя метатег robots в файл /engine/skins/default.skin.php:
Найти:
<head>


Добавить ниже:
<meta name="robots" content="noindex,nofollow" />


А fioru-и на мауле предложил закрывать индексирование админки в robots.txt, но интересным способом:
Disallow: /admin

а файл админки admin.php переименовывать, например в admin-dostup.php, оставляя впереди имени часть admin.
В итоге админка закрыта от индексирования, а полное имя файла админки в robots.txt для злоумышленников не раскрыто.



Далее поговорим о страницах дублирования контента, нужно ли разрешать их индексировать ПС.
Хочется напомнить, что мы создаём и обсуждаем robots.txt применительно к сайту для людей (СДЛ), а не под сапу, стремясь запихнуть в индекс под размещение ссылок максимум страниц, в том числе служебных и дублирующих контент.

Само по себе то, что контент дублируется на страницах пагинации, архивов, дат, категорий, каталога и тегов посетителям вашего сайта не мешает, всё дело в том, что основная масса посетителей приходит на ваш сайт с поисковиков, и приходят посетители за интересующей их информацией, которую они искали, вот тут то дубли попавшие в индекс ПС нам и мешают, причём не только мешают, но и наносят вред в виде обмана посетителя.

И теперь рассмотрим в чём обман посетителя применимый к страницам пагинации. Большинство ресурсов в сети постоянно обновляются, т.е. информация размещённая сегодня на первой странице, завтра уже будет на второй, а через неделю где то на 10-ой странице вашего сайта. ПС проиндексировала какую-то информацию размещённую сегодня на второй странице, а через неделю посетитель увидя её в результатах поиска пришёл на ваш сайт и на второй странице этой информации не нашёл, она же уже на 10-ой, после этого он скорее всего закроет страницу вашего сайта и выберет из результатов поиска сайт конкурентов, где может быть станет постоянным посетителем, которого вы потеряли.

С остальными страницами сайта, дублирующими контент, ситуация схожа, например страницу всех тегов, ссылку на которую я открываю только зарегистрированным пользователям, я использую как поисковый инструмент сайта, так и называя её - Поиск по тегам, причём тут есть плюс, он позволит найти информацию из трех и менее символов, которую не позволить найти на вашем сайте обычный поиск. А от индексирования эти страницы закрыты:
Disallow: /2013/
Disallow: /tags/
Disallow: /user/
Disallow: /favorites/
Disallow: /lastnews/
Disallow: /newposts/
Disallow: /catalog/
Disallow: /*page/
Disallow: /*print



А теперь рассмотрим как закрыть служебные страницы и дубли вида:
Disallow: /index.php?newposts.html
Disallow: /index.php?statistics.html
Disallow: /index.php?subaction=userinfo
Disallow: /index.php?subaction=newposts
Disallow: /index.php?index.php?do=lastcomments
Disallow: /index.php?do=feedback
Disallow: /index.php?do=register
Disallow: /index.php?do=lostpassword
Disallow: /index.php?do=addnews
Disallow: /index.php?do=stats
Disallow: /index.php?do=pm
Disallow: /index.php?do=register
Disallow: /index.php?do=search

ведь их так много?

тут всё просто и в одной строке:
Disallow: /*?*

Так как служебные страницы, обратной связи, регистрации, добавления новости, статистики и др. не несут полезной информации, то не жалейте их, они ведь сами по себе близнецы-дубли страниц тысяч сайтов построенных на DLE.

Старался описать большинство нюансов значений в robots.txt доступным языком и теперь подвожу итог, каким же я вижу правильный robots.txt для DLE?

а вот он:
User-agent: *
Disallow: /2008/
Disallow: /2009/
Disallow: /2010/
Disallow: /2011/
Disallow: /2012/
Disallow: /2013/
Disallow: /tags/
Disallow: /user/
Disallow: /favorites/
Disallow: /lastnews/
Disallow: /newposts/
Disallow: /catalog/
Disallow: /*page/
Disallow: /*print
Disallow: /addnews.html
Disallow: /statistics.html
Disallow: /rules.html
Disallow: /dle-rules-page.html
Disallow: /engine/
Disallow: /*?*
Disallow: /admin

Sitemap: http://сайт.ru/sitemap.xml
Host: сайт.ru


Файл админки при таком варианте нужно переименовывать из admin.php например в admin-dostup.php, вообщем оставляя начало в виде admin. Первые строки зависят от количества лет существования вашего сайта.

И не забудьте в строках Sitemap и Host заменить сайт.ru на ваш домен.
В Sitemap укажите url к карты сайта, его можно узнать в админке в разделе "Карта сайта для Google и Yandex".
В Host укажите ваш домен, учитывая его основное зеркало, т.е. с www или без него, для этого и служит значение Host, и вводится только домен основного зеркала, а не полный url сайта.
Кроме того, так как Host понимают не все роботы, рекомендуется его добавлять в конце файла robots.txt.

С уважением, Yeti(webseolife.ru | cms-dle.ru).

Ключевые слова по теме Ещё раз о правильном файле robots.txt для DLE: правильный robots.txt для DLE, файл robots.txt, индексация