На главную

Библиотека Интернет Индустрии I2R.ru

Rambler's Top100

Малобюджетные сайты...

Продвижение веб-сайта...

Контент и авторское право...

Забобрить эту страницу! Забобрить! Блог Библиотека Сайтостроительства на toodoo
  Поиск:   
Рассылки для занятых...»
I2R » Секреты поиска
Разделы в "Секреты поиска":
YandexПоисковые системы и каталогиНовое в разделе "Секреты поиска"YahooGoogleИндексирование сайта

Ответчики, которые не отвечают.

У Рэя Брэдбери есть рассказ об Ответчике, который знает ответ на любой вопрос. Со всех галактик на его планету слетаются жаждущие истины. Получить ее не удается никому. Знания Ответчика столь велики, что для точного ответа необходима абсолютно правильная постановка вопроса в рамках тех знаний, которые требуются для понимания ответа. И для того, чтобы правильно сформулировать Вопрос… надо знать Ответ. Похоже, что Брэдбери предсказал проблемы сегодняшних поисковых систем.

Если вы забыли текст любимой песни, но в голове осталось что-нибудь большее, чем "тра-ля-ля… парам-пам-па…", восстановить его элементарно. Задаете строку, которая является частью какого-то документа, а поисковая система находит полный документ, и пойте на здоровье. Назовем этот принцип поиска на американский манер – D2D (document-to-document). Это основной и, подчеркнем, единственный принцип организации всех индексирующих систем в Сети (AltaVista, Infoseek, Excite, Апорт, Яndex, Рамблер и др.). Различия лишь в алгоритмах анализа запроса и интерфейсах вывода результатов.

Есть другой принцип поиска. Назовем его M2B (mind-to-box, или, по-русски, "мозги в ящик"). Вы уже поняли, что это метод поиска по тематическому каталогу. Пользователь, ведомый собственной мыслью, пытается угадать, к какой подраздел каталога поместили нужную ему информацию разработчик сайта на пару с модератором каталога. Разработчик гадает, где пользователь будет искать его сайт, модератор же часто имеет на этот счет собственное мнение. И если для успешного поиска методом D2D достаточно одному человеку знать хоть какую-то часть реального документа, то для M2B приходится, что называется, "соображать на троих". Вспоминается басня про Лебедя, Рака и Щуку...

Таким образом, наши поисковые машины не отвечают на запрос, а "расширенно повторяют" его. Во многих каталогах уже есть все, положенное нормальному лабиринту, кроме Минотавра. Картина, конечно, пока не столь мрачна, люди еще ищут и находят, но оцените сами – Интернет-сообщество сегодня свято верит и во всеуслышание говорит с любой трибуны: ПОИСК В ИНТЕРНЕТ – ЭТО ИСКУССТВО.

Заявление очень похоже на оправдания нерадивого хозяина, который вместо того, чтобы наводить порядок в большой кладовке, объявил ее Мастерской Художника. А там, как известно, бардаку быть сам Бог велел.

В Природе ничего не происходит с бухты-барахты, поэтому у любого феномена всегда найдется и причина, и следствие. Кажется, это называется эволюцией. Эволюционен и путь развития поисковых систем.

Идея поиска по ключевым словам зародилась еще во времена, когда вся сеть состояла из нескольких компьютеров американских университетов, и по ключевым словам "Боб" и "Джон" было очень легко отделить труды Боба-биолога от работ Джона-математика – количество доступных документов было просто смешным по современным меркам. С возрастанием числа Джонов и Бобов идея keyword’ов стала казаться не столь замечательной. Начался стремительный рост каталогов.

Как я говорил, индексирующие системы отлично ищут в случае, когда вы точно знаете, какой документ нужен. Если не знаете, будете долго рассматривать сообщение, что найдено сколько-то там сотен тысяч документов, "соответствующих запросу". В сравнении с этим каталожная организация хранения информации кажется вершиной порядка. Но, увы, только в том случае, если вы хотя и не знаете документа или контекста, но хорошо разбираетесь в структуре каталога и иерархии знаний в области запроса. В противном случае без Ариадны не обойтись. В Yahoo! уже сегодня десятки вложенных подкаталогов, а процесс наполнения Сети данными только-только "пошел", и лишь Бог ведает, насколько еще придется "улучшить и углубить" структуру каталогов.

Типичный пример, если вероятность ошибки выбора каталожного подраздела на каждом ярусе составляет всего 10%, и нужная вам информация находится в седьмом ярусе или ниже, ваши шансы на успех уже меньше, чем "фифти-фифти" (0,9 в седьмой степени равны 0,48). Если же вы нечетко ориентируетесь в теме, вероятность ошибки возрастет. При ее возрастании до 0,5 найти искомую информацию при тех же условиях невозможно. У вас просто нет шансов - меньше одного процента.

Это лишь беглый взгляд на положение дел, свободный от какой-либо оценки: хорошо или плохо, но так есть.

Как известно, компьютер предназначен для освобождения человека от рутинных автоматических операций, для раскрытия творческих способностей и т.п. Во времена 286-х, 386-х, 486-х, если кто еще помнит, что это такое, ждали небывалого взлета возможностей обработки информации, когда наступит время каких-нибудь 1286-х процессоров. Наступило. И что же? Крупнейшие компании по обработке информации – это и есть поисковые системы – начали активно использовать ручной (точнее, "мозговой", интеллектуальный) труд модераторов и рецензентов. Так поступают AltaVista, Exсite, наш Апорт…

Вот, мягко говоря, "хай теч" Эры Информации в анфас и в профиль. От методов организации информации напрямую зависит возможность ее использования. При сегодняшних тенденциях роста Интернет и таких же поисковых системах Сеть лет через пять превратится в пыльный чулан, и нам придется заново изобретать ну о-очень много велосипедов – их будет проще изобрести, чем найти чертежи в этой свалке.

Понимают ли это владельцы поисковых серверов? Безусловно. Пытаются ли найти выход? Конечно. В каком направлении? В поисках более изощренных алгоритмов анализа запросов. Получается ли это у них? Да, но все меры приносят кратковременный эффект, ничего не меняя по сути. Есть ли иной путь? Да. Какой?

Парадоксальный. Надо не изобретать новые методы анализа запроса, а ОТКАЗАТЬСЯ от любых его изменений. Запрос должен быть понят (осмыслен) в том виде, как он сформулирован пользователем. Так звучит один из принципов нейронных поисковых систем, релевантность которых абсолютна (100%). Но это новые, пока очень молодые системы.

Андрей Иванов

Спонсор раздела

Другие разделы
Yandex
Поисковые системы и каталоги
Новое в разделе
Yahoo
Google
I2R-Журналы
I2R Business
I2R Web Creation
I2R Computer
рассылки библиотеки +
И2Р Программы
Всё о Windows
Программирование
Софт
Мир Linux
Галерея Попова
Каталог I2R
Партнеры
Amicus Studio
NunDesign
Горящие путевки, идеи путешествийMegaTIS.Ru

2000-2008 г.   
Все авторские права соблюдены.
Rambler's Top100