Безопасность IIS

       

Протокол исключений роботов


Для указания разделов сайта, которые не должны посещаться роботом, создайте специально отформатированный файл с именем robots.txt. Разместите этот файл на верхнем уровне веб-пространства, например, по адресу http://www.ваш_домен.com/robots. Когда робот найдет этот документ, он проанализирует содержимое данного файла, устанавливающее базовую политику доступа роботов. К сожалению, робот действует по принципу "разрешено все, что не запрещено". На сайте может существовать только один файл robots.txt, поэтому не размещайте файлы robots.txt в различных папках, так как роботы никогда не будут их считывать. Если веб-разработчики создают свои собственные файлы robots.txt, нужно осуществить их слияние в один файл. Можно также использовать META-теги роботов (о которых пойдет речь в следующем разделе).

Содержимое файла robots.txt может быть таким:

User-agent: * Disallow: /scripts/ Disallow: /includes/ Disallow: /mike/

В этом примере роботы могут посещать все части сайта, кроме трех вложенных папок: scripts, includes и mike. Регулярные выражения не поддерживаются в строках User-agent или Disallow, однако звездочка ("*") в поле User-agent имеет специальное значение – "любой робот". Следовательно, нельзя вводить в файл такие строки: Disallow: /tmp/* или Disallow: *.gif. Укажите отдельную строку Disallow для каждой папки, которую нужно исключить из списка посещаемых роботом объектов. Нельзя включать в запись и пустые строки, так как они используются для разделения нескольких записей.

Ниже приведено несколько примеров того, как запретить роботам посещение всего сайта целиком или его отдельных частей.

Чтобы исключить всех роботов для всего сайта:

User-agent: * Disallow: /

Чтобы исключить всех роботов для отдельных папок на сайте:

User-agent: * Disallow: /scripts/ Disallow: /includes/ Disallow: /private/

Чтобы исключить одного робота:

User-agent: BadBot Disallow: /

Чтобы разрешить определенного робота:

User-agent: WebCrawler Disallow:

Так как в этом случае не может существовать поле "Allow" (Разрешить), то для исключения всех файлов, кроме одного, поместите эти файлы в отдельную подпапку (например, private), и перенесите один файл на уровень выше, чем данная папка, например:

User-agent: * Disallow: /corporate/private/

В качестве альтернативы можно явным образом запретить доступ робота к каждой странице:

User-agent: * Disallow: /corporate/private.html Disallow: /corporate/sensitive.html Disallow: /corporate/hr.html

Файл robots.txt должен исключать все папки, кроме тех, которые действительно должны быть проиндексированы и доступны через поисковые машины интернета.



Содержание раздела