Каталог бесплатных программ | Статьи | Теория компьютерной грамотности

6 Августа, 2010 01:33

Статьи » Теория компьютерной грамотности » Поговорим о robotах …

Современные поисковые системы на сегодняшний день представляют собой мощнейший инструмент, ориентированный не только на поиск информации на сайтах. Наверное многие слышали о истории когда с помощью поисковой системы Google были найдены файлы предназначенные не для общего доступа. Если нет, тот же Google Вам в помощь, поверьте, будет интересно.

Дабы избежать подобных неприятностей и немного обезопасить себя каждый веб-мастер должен знать как указать поисковому роботу что именно индексировать для помещения информации в серп (поисковая выдача), а что просто-напросто игнорировать.

Как гласит всезнающая статистика, более половины пользователей сети Интернет прибегает к помощи поисковых систем. Удивительного здесь нет ничего, то огромное количество информации хранимой на просторах сети невозможно упорядочить не прибегая к услугам интернет поисковиков. Это в свою очередь приводит к постоянному усовершенствованию алгоритмов поисковых роботов, сегодня с помощью пары специальных запросов можно получить информацию которую веб-мастер не желает показывать общественности.

Дабы избежать подобных казусов при администрировании личного сайта стоит обратиться к давно разработанным стандартам указывающим поисковым паукам (альтернативное название для поисковых роботов) какие именно страницы ресурса доступны для индексации, а какие необходимо обходить стороной. Управление роботами осуществляется с помощью мета-тегов и файла robots.txt. К сожалению срабатывает такая защита только в том случае если робот придерживается стандартов используемых в данном способе управления сканированием информации.

С чего все начиналось, или рождение robots.txt …

Еще в далекие 93-94 года прошлого века впервые возник вопрос о способах манипулирования поисковыми роботами, для того что бы корректно направить его на определенные страницы сайта разрешенные к индексации. Протокол Robots Exclusion Protocol разработал Мартин Костер, спецификации этого протокола до сих пор управляют поведением поисковых роботов. Robots Exclusion Protocol содержит в себе правила исключений для разного рода роботов-сканеров (поисковые роботы, роботы зазеркаливания ресурсов и т. д.).

Правильный подход к составлению правил позволяет исключить из поля зрения поисковых роботов как полностью веб-сервер, так и отдельный документ сайта, или файл. Выглядит все это очень просто — в корне сервера располагается файл robots.txt в котором расписаны команды для роботов. Обязательным условием является расположение файла именно в корневом каталоге, так как наличие файла robots.txt в других папках сайта просто будет проигнорировано поисковиком.

Robots.txt изнутри …

Для тех кто планирует изучить спецификации протокола Robots Exclusion Protocol стоит обратить внимание на сайт robotstxt.org . Там более подробно расписан формат файла robots.txt, мы же расскажем лишь о некоторых моментах.

Одним из замечательных свойств этого файла является возможность манипулирования конкретным поисковым роботом той или иной поисковой системы. Так для Google мы можем выдать одни страницы, а вот для Yandex совершенно другие. Использую эту особенность можно значительно повысить посещаемость своего ресурса.

Robots.txt является обычным текстовым документом (легко создается в Блокноте :) ), он состоит параметров и значений которые разделены между собой двоеточием, все записи не чувствительны к регистру. В одной строке записывается только один параметр. Все строки начинающиеся с символа # являются комментариями.

Как известно, любая программа предназначенная для доступа к данным в сети имеет свое уникальное имя, для управления ими в файле robots.txt присутствует параметр User-agent, в него записывается robot-id (уникальное имя программы или поискового робота), разрешается запись нескольких robot-id в одну строку, разделяя их пробелом либо табуляцией. После чего вносятся строки с правилами сканирования для этих программ. К примеру правило для поискового робота Yandex будет выглядеть так: User-agent: Yandex.

Если поисковый робот придерживается правил описанных в robots.txt он, найдя правило совпадающее с его именем,будет сканировать ресурс руководствуясь разрешениями и запретами касающимися только его.

Если свод правил относится ко всем существующим роботам то параметр User-agent принимает значение * . Стоит отметить что найдя несколько записей совпадающих с именем, поисковый робот может выбрать любую из них, поэтому к составлению правил необходимо отнестись серьезно, и не допустить ошибок.

Далее необходимо применяя инструкции Disallow/Allow внести ограничения для поисковых роботов. Disallow — запрет на индексацию, Allow — разрешение индексировать тот или иной каталог, файл. Спецификация файла robots.txt позволяет вносить несколько значений в одно поле, но делать этого не рекомендуется так как в будущем это может привести к проблемам с индексацией из-за изменений в спецификациях.

Примером простой реализации файла robots.txt может служить наш сайт:

User-agent: Yandex
Disallow: /home/
Disallow: /base/
Disallow: /block/
Disallow: /cache/
Disallow: /mod/
Disallow: /temp/
Disallow: /js/
Disallow: /error/
Disallow: /loader/
Disallow: /print/
Disallow: /file/
Disallow: /info/
Disallow: /*letter
Disallow: /*print-
Disallow: /*down/load
Disallow: /*article/a-
Disallow: /*down/o-
Disallow: /*down/r-
Disallow: /article/view/*
Disallow: /down/view/*
Disallow: /news/p-*
Disallow: /news/r-*
Disallow: /article.rss
Disallow: /down.rss
Disallow: /news.rss
Disallow: /link/view/*
Disallow: /stat/_nome
Disallow: /gsearch*
Disallow: *prev_next=next#new*
Disallow: /forum/attachments/
Disallow: /forum/avatars/
Disallow: /forum/Packages/
Disallow: /forum/Smileys/
Disallow: /forum/Sources/
Disallow: /forum/Themes/
Disallow: /forum/Games/
Disallow: /forum/index.php?PHPSESSID=*
Allow: /forum/*sitemap
Allow: /forum/*gallery
Disallow: /forum/*topic=*.msg
Disallow: /forum/*karma
Disallow: /forum/*unread
Disallow: /forum/index.php?*unread
Disallow: /forum/*sort
Disallow: /forum/index.php?*sort
Disallow: /forum/*printpage
Allow: /forum/*board=
Disallow: /forum/index.php?*wap
Allow: /forum/*topic=
Disallow: /forum/*wap
Disallow: /forum/index.php?*imode
Disallow: /forum/*imode
Disallow: /forum/*=
Disallow: /forum/*.msg
Disallow: /forum/index.php?*new
Disallow: /forum/*.new

Sitemap: 1001file.ru/sitemap.xml
Host: 1001file.ru

Также необходимо знать что ограничивая/разрешая действия поискового робота можно использовать как прямую ссылку, так и частичную. К примеру запись Disallow: /cache указывает роботу на запрет индексации не только каталога cache или файла cache.html, но и любого другого файла в имени которого может встретится cache. Поэтому при необходимости скрыть от индексации только каталог с именем cache необходимо внести запись Disallow: /cache/, как это и сделано в примере.

Для удобства работы поисковые роботы научены понимать регулярные выражения, так для исключения из индексации всех графических изображений с расширением *.png необходимо использовать запись Disallow: *.png$.

Параметр Sitemap: необходим для того что бы указать где находится карта сайта вашего веб-ресурса, нужно это для более быстрой индексации сайта. Host: позволяет указать роботу какой домен является главным зеркалом.

Файл robots.txt таит в себе много интересного. Если Вам интересна эта тема, жду Вас на форуме нашего сайта. Удачи !!!

Тымчак Артем
5 августа 2010 год.