![]() |
Библиотека Интернет Индустрии I2R.ru |
||
![]() ![]() |
Персональный и публичный поиск Capel как альтернатива забвениюИтак, Вы решили подробнее ознакомиться с нашим поисковым сервисом. Немного аналитики, точнее выводов из нее.
Наверное, хватит перечислять то, что Вы и так видите каждый день. Что делать - вот вопрос на который мы должны ответить. Выходов из ситуации всего два. Первый и актуальный - создание поисковых тематических машин, либо Поисковых систем с разделенными базами сайтов. Второй - создание системы глобальных баз данных с возможностью интуитивного поиска. Мы пошли по обоим путям сразу. То есть, пока мы позиционируем нашу машину как тематическую. В основе взята база сайтов о наружной рекламе, полиграфии и сувенирной продукции. Здесь мы пытаемся заполнить её максимально осторожно. Нас интересуют только Российские сайты , правда. уже независимо от их доменного имени. Главное - владелец сайта Российская компания. Связано это только с тем, что вопросы таргетинга лучше всего работают на таргетинговой же базе. К языку сайта это неприменимо - Россия многонациональное государство и языков тоже много, так что неважно: кириллица или латинница лежит в основе языка автора - сайт должен быть проиндексирован. Индексируется только то, что не находится в запрете. Машина не заполняет формы, не вводит пароли. Закрытый от индексации сайт - это закрытый сайт. Даже, если кнопка входа будет одна и безо всяких паролей и форм авторизации. К стандарту robots.txt мы подходим сдержано.То, что можно индексировать, мы индексируем. Реклама , сувениры и полиграфия - три двигателя нашего поисковика, построенного на морфологии языка. Мы не используем чужих индексных баз и алгоритмов ранжирования, поэтому мы - четвертый поисковик рунета. Как это работает: после добавления сайта в базу поиска запускается робот линкатор, который собирает все ссылки с сайта, обходя его рекурсивно. Нам неважно, какая система принята за основную при построении навигации. Робот одинаково хорошо индексирует как статику , так и динамику. Ограничений на индексацию страниц нет, хоть несколько десятков тысяч. Он не коннектится к базам данных, не идет по ссылкам на джава скриптах - наличие их воспринимается нами как скрытая от бота навигация. Далее мы активируем робота-читателя (вы наверное видели в записях агента capel reader). Он собирает контент, делая это осторожно и бережно. Мы не собираемся ни в коем случае "уронить" сервер, поэтому таймаут довольно продолжительный. Все, после этого происходит ранжирование и запись в базу по нашим алгоритмам. Пользоваться поиском просто. В стандартном положении переключателя (свича) происходит поиск по страницам сайтов. Для удобства поиска мы выводим наиболее популярные запросы во вкладку "Статистика системы", где так же показаны кол-ва запросов в день и общее с 5 декабря 2005 года (запуск системы). ![]() При активации ссылки запрос, написаный в ней поступает в форму и начинается поиск. В результатах мы выводим скриншоты сайтов. Делается это для того, чтобы пользователь смог легко вспомнить был ли он на этом сайте или нет. ![]() Так же над поисковой формой размещены динамические ссылки на разделы. "Наружная реклама" - ссылка на выборку из базы сайтов, содержащих слова "наружная реклама". ![]() Слева находится меню "Все Сервисы" , при активации которого открывается вкладка с названиями сервисов. ![]() Пока по поиску все. Мало, конечно. Но это только старт. В настоящий момент заполняется база всех рекламных сайтов России для того, чтобы пользователи имели доступ ко всей информации.Это не быстрый процесс, и мы расчитываем на Вашу поддержку. Хотя у нас содержатся сайты со всеми словами русского языка, некоторые из них мы блокировали.Подробнее это описано в разделе "Новости".Так же бессмысленно в этой базе искать не рекламные ресурсы. Кондинционеры там есть и пластиковые окна тоже, но они являются рудиментами рекламных ресурсов и релевантности по ним практически никакой. Конечно, это вносит некий дизбаланс в сознание пользователей, нам приходится выслушивать издевки некоторых людей по поводу ограниченности наших возможностей ( к слову, потом они спрашивают в привате, можно ли на "народе" открыть Поисковую Систему). Но всему свое время. Точно так же мы реализуем остальные базы, которые "завяжем" в единую глобальную сеть.Старт программы CGI (Capel Global Internet) намечен на весну. О рекламе на поисковике рекламы мы расскажем несколько позже. Статьи по теме:
|
|
![]() |
![]() |
2000-2008 г. Все авторские права соблюдены. |
![]() |
![]() |
![]() |
![]() |