На главную

Библиотека Интернет Индустрии I2R.ru

Rambler's Top100

Малобюджетные сайты...

Продвижение веб-сайта...

Контент и авторское право...

Забобрить эту страницу! Забобрить! Блог Библиотека Сайтостроительства на toodoo
  Поиск:   
Рассылки для занятых...»
I2R » Рынок
Разделы в "Рынок":
Компании РунетаТуризмКомпанииЭлектронное правоAmazon, eBay и YahooТенденции и цифрыНовое в разделе "Рынок"

Двое из ларца, одинаковых с лица.

При поиске информации в Интернет мы можем воспользоваться различными порталами, которые нам обещают найти информацию, релевантную нашему запросу, во всем Интернет-пространстве.

Времена, когда вездесущие пчелки-роботы осматривали все сайты Сети, давно канули в Лету. Дай Бог, чтобы они успевали просматривать те сайты, которые в информационных системах регистрируются. Правда, некоторые исследователи (см. отчеты NUA) полагают, что дело не в стремительном росте Сети, а в экономике. Если у Вас есть бюджет на рекламу, то Вы попадете в каталог, если нет, - то не попадете. Наиболее емкий каталог Northern Light охватывает только 16% Сети. При этом показатели Altavista и Yahoo скромнее – 15.5% и 7.4%, соответственно.

На основе личного опыта могу утверждать, что в Altavista попасть можно, но не с первого раза и не всем сайтом целиком. Вообще говоря, исследователи из NEC Research Institute (Princenton, NJ) утверждают, что на индексирование нового сайта в поисковых машинах в среднем уходит 6 месяцев. Так что ждать немедленного наплыва посетителей на ваши страничке после первых попыток регистрации их в поисковых системах не приходится.

Тем не менее, если администратор системы начал процесс ее регистрации и довел его до логического завершения, то он, как правило, регистрирует систему во всех более или менее популярных каталогах, поэтому в первом предположении исходные массивы документов можно считать в некотором смысле идентичными.

Проверим это. Зададим один и тот же запрос разным информационно-поисковым системам и посмотрим на результаты. Мировых фаворитов мы "озадачим" словосочетанием "Information Retrieval", а отечественные системы – "информационный поиск".

Название системы
Число страниц в отклике
120480
99694
196
 
27631
13006
126
99

Как показал просмотр результатов поиска, число найденных документов прямо пропорционально числу релевантных. Документы в Yahoo – страницы далеко не первой свежести. Это говорит о том, что тематический профиль системы давно сместился в плоскость электронной коммерции. Там еще есть качественные старые материалы, написанные на основе фундаментальных исследований, но притока новых уже давно не наблюдалось.

Для тех, кто умеет искать, и не только по тематике нашего запроса, лучшей системой продолжает оставаться Altavista, которая, кстати сказать, не делает тайны из реализованных в ней алгоритмов поиска, но об этом как-нибудь в следующий раз.

Из отечественных систем можно смело сконцентрироваться только на двух: Яндекс и Рамблер. Результаты нашего исследования только лишний раз подчеркивают закономерность, которая состоит в том, что объемы этих баз данных поисковых образов документов на два порядка превосходят массивы других российских поисковых систем вместе взятых.

Единственно, для кого следует сделать исключение – это List.ru. Результат, полученный нами (126 документов) говорит только о низком качестве организации массива и непродуманной системе индексирования и каталогизации.

То, что Яндекс ищет лучше Рамблера – хорошо известный факт. Только нужно уметь искать. Коммерциализация, конечно, не обошла стороной творение CompTek, и искать стало труднее, но по сравнению с объемом "мусора", который вываливает Рамблер Яндекс выглядит идеалом (см. результаты нашего опроса).

По другим показателям отечественные и зарубежные системы сравнивать просто некорректно. Любая наша система не борется с нагрузкой порядка 120 млн. запросов в сутки, как об этом сообщает Lycos или Altavista. Максимум на что их испытывает отечественная аудитория, так это около 3 млн. хитов, которые красуются на первой странице Рамблер.

Возможно, это вызвано пропускной способностью канала или другими причинами, о которых нам не известно, но факт остается фактом – это на два порядка меньше, чем у лидеров индустрии. В Яндекс эту информацию сообщают только рекламодателям, но думаю, что порядки величин отличаются не очень сильно.

Согласитесь два порядка даже при таком некорректном сравнении – это очень много. Это принципиально разные технические решения и совершенно другой охват аудитории. В некотором смысле это оценка емкости рынка отечественных порталов и с точки зрения рекламы, и сточки зрения других услуг.

Но мы несколько отвлеклись. Наше исследование призвано было продемонстрировать степень неопределенности, с которой пользователь сталкивается при поиске информации в Интернет. Даже обращаясь к фаворитам, Вы не можете быть уверены в том, что в их информационных массивах есть то, что вам нужно.

Подводя итоги

Таким образом, сам характер Информационного Поиска в эпоху новых информационных технологий не изменился. Программисты продолжают переносить в сеть хорошо известные алгоритмы и результаты исследований, которые были получены в предыдущие годы. Материалы конференций пронизаны духом сомнений и осознанием некоторого тупика в рамках существующих подходов.

Но не все так грустно. Прогресс не стоит на месте, и новые инструменты поиска постепенно находят свое воплощение, как в коммерческих, так и в свободно распространяемых программных продуктах. Но что это за инструменты, и какие принципы положены в их основу, мы рассмотрим в другой раз.

Павел Храмцов

Другие разделы
Туризм
Компании
Электронное право
Amazon, eBay и Yahoo
Тенденции и цифры
Новое в разделе
I2R-Журналы
I2R Business
I2R Web Creation
I2R Computer
рассылки библиотеки +
И2Р Программы
Всё о Windows
Программирование
Софт
Мир Linux
Галерея Попова
Каталог I2R
Партнеры
Amicus Studio
NunDesign
Горящие путевки, идеи путешествийMegaTIS.Ru

2000-2008 г.   
Все авторские права соблюдены.
Rambler's Top100