Robots.txt. Библиотека I2R. "Разные поисковые системы по-разному ранжируют - это факт. Вот иполучается, что у накапливается страниц почти идентичных по содержаниюи одинаковых по размеру. Что делать? Ведь паук индексирует, поумолчанию, все страницы с ресурса. А поисковые системы не очень любят повторяющиеся страницы и называют это страшным словом спам..."

Разные поисковые системы по-разному ранжируют – это факт. Вот и получается, что у них накапливается множество страниц, почти идентичных по содержанию и одинаковых по размеру. Что делать? Ведь паук индексирует по умолчанию все страницы с ресурса. А поисковые системы не очень любят повторяющиеся страницы и называют это страшным словом "спам". А если cgi-скрипты, виртуальные директории и т.д. Как отделить зерна от плевел?

В "далеком", по виртуальным меркам конечно, 1994 году был придуман способ управления поисковыми роботами. Файл Robots.txt в корневой директории создан, чтобы решить все перечисленные проблемы. Почему Robots.txt? Немного истории: имя должно быть одинаково для любой операционной системы, расширение не должно требовать специальных настроек сервера, он должен быть таким, чтобы его можно было легко запомнить и не спутать с существующими файлами.

Создать файл можно в блокноте или любом другом совместимом редакторе, хоть просто в DOS'е. Единственное, за чем необходимо следить при создании, – это синтаксис. Синтаксис же довольно прост:

User-agent: Spidername # Имя паука, а не поисковой машины
Disallow: /filename # имя файла
Disallow: /directory/subdirectory # имя директории, путь
# - комментарий, принят от начала "решетки" и до конца строки.

Если необходимо запретить нескольким роботам индексировать одни и те же страницы – можно написать имена пауков через пробел в поле User-agent. Если же необходимо запретить индексировать все документы всем роботам, то следует воспользоваться следующей записью:

User-agent: *
Disallow: /
и разрешить
User-agent: *
Disallow:
соответственно.

Необходимо обращать особенное внимание на регистр при составлении Robots.txt, так как паук очень чувствителен к нему.

Добавить можно только одно: если Вы пользуетесь суб-доменом, то у Вас изначально могут возникнуть некоторые проблемы, потому что Robots.txt должен располагаться в корневой директории. Рамблер не индексирует ресурсы, находящиеся на публичных серверах (geocities, tripod, и др.), но зато индексирует с популярного народа, хотя гораздо медленнее, чем другие страницы. Так что стоит позаботиться о "прямом" домене – 40 у.е. в год - не такая уж большая цена. Далее для вашего удобства приводится список имен поисковых роботов, так как их имена могут отличаться от названий поисковых машин:

Search Engine: User-Agent
AltaVista: Scooter
Infoseek: Infoseek
Hotbot: Slurp
AOL: Slurp
Excite: ArchitextSpider
Google: Googlebot
Goto: Slurp
Lycos: Lycos
MSN: Slurp
Netscape: Googlebot
NorthernLight: Gulliver
WebCrawler: ArchitextSpider
Iwon: Slurp
Fast: Fast
DirectHit: Grabber
Yahoo Web Pages: Googlebot
Looksmart Web Pages: Slurp
Rambler: StackRambler

Как видно из списка, имена некоторых роботов повторяются и их нельзя никак различить в файле Robots.txt.

	Библиотека Интернет Индустрии I2R.ru	Малобюджетные сайты... Продвижение веб-сайта... Контент и авторское право...
Забобрить! Блог		Поиск:	Рассылки для занятых...»

Библиотека Интернет Индустрии I2R.ru

Малобюджетные сайты...

Продвижение веб-сайта...

Контент и авторское право...

Robots.txt