На главную

Библиотека Интернет Индустрии I2R.ru

Rambler's Top100

Малобюджетные сайты...

Продвижение веб-сайта...

Контент и авторское право...

Забобрить эту страницу! Забобрить! Блог Библиотека Сайтостроительства на toodoo
  Поиск:   
Рассылки для занятых...»
I2R » Секреты поиска » Поисковые системы и каталоги

Robots.txt

Разные поисковые системы по-разному ранжируют – это факт. Вот и получается, что у них накапливается множество страниц, почти идентичных по содержанию и одинаковых по размеру. Что делать? Ведь паук индексирует по умолчанию все страницы с ресурса. А поисковые системы не очень любят повторяющиеся страницы и называют это страшным словом "спам". А если cgi-скрипты, виртуальные директории и т.д. Как отделить зерна от плевел?

В "далеком", по виртуальным меркам конечно, 1994 году был придуман способ управления поисковыми роботами. Файл Robots.txt в корневой директории создан, чтобы решить все перечисленные проблемы. Почему Robots.txt? Немного истории: имя должно быть одинаково для любой операционной системы, расширение не должно требовать специальных настроек сервера, он должен быть таким, чтобы его можно было легко запомнить и не спутать с существующими файлами.

Создать файл можно в блокноте или любом другом совместимом редакторе, хоть просто в DOS'е. Единственное, за чем необходимо следить при создании, – это синтаксис. Синтаксис же довольно прост:

User-agent: Spidername # Имя паука, а не поисковой машины
Disallow: /filename # имя файла
Disallow: /directory/subdirectory # имя директории, путь
# - комментарий, принят от начала "решетки" и до конца строки.

Если необходимо запретить нескольким роботам индексировать одни и те же страницы – можно написать имена пауков через пробел в поле User-agent. Если же необходимо запретить индексировать все документы всем роботам, то следует воспользоваться следующей записью:

User-agent: *
Disallow: /
и разрешить
User-agent: *
Disallow:
соответственно.

Необходимо обращать особенное внимание на регистр при составлении Robots.txt, так как паук очень чувствителен к нему.

Добавить можно только одно: если Вы пользуетесь суб-доменом, то у Вас изначально могут возникнуть некоторые проблемы, потому что Robots.txt должен располагаться в корневой директории. Рамблер не индексирует ресурсы, находящиеся на публичных серверах (geocities, tripod, и др.), но зато индексирует с популярного народа, хотя гораздо медленнее, чем другие страницы. Так что стоит позаботиться о "прямом" домене – 40 у.е. в год - не такая уж большая цена. Далее для вашего удобства приводится список имен поисковых роботов, так как их имена могут отличаться от названий поисковых машин:

Search Engine: User-Agent
AltaVista: Scooter
Infoseek: Infoseek
Hotbot: Slurp
AOL: Slurp
Excite: ArchitextSpider
Google: Googlebot
Goto: Slurp
Lycos: Lycos
MSN: Slurp
Netscape: Googlebot
NorthernLight: Gulliver
WebCrawler: ArchitextSpider
Iwon: Slurp
Fast: Fast
DirectHit: Grabber
Yahoo Web Pages: Googlebot
Looksmart Web Pages: Slurp
Rambler: StackRambler

Как видно из списка, имена некоторых роботов повторяются и их нельзя никак различить в файле Robots.txt.

Данил Левенстам

Рассылки Subscribe.ru:

Библиотека сайтостроительства - новости, статьи, обзоры
Дискуссионный лист для web-разработчиков
Подписка на MailList.Ru
Автор: NunDesign
Другие разделы
Yandex
Поисковые системы и каталоги
Новое в разделе
Yahoo
Google
I2R-Журналы
I2R Business
I2R Web Creation
I2R Computer
рассылки библиотеки +
И2Р Программы
Всё о Windows
Программирование
Софт
Мир Linux
Галерея Попова
Каталог I2R
Партнеры
Amicus Studio
NunDesign
Горящие путевки, идеи путешествийMegaTIS.Ru

2000-2008 г.   
Все авторские права соблюдены.
Rambler's Top100