Проблематика поиска. Библиотека I2R. Поиск в интернете – что лучше, человеческий мозг или компьютер? Три проблемы: отсутствие информации, противоречия интернет-каталогов и феномен коротких поисковых запросов в индексирующие поисковые системы. Формулировка общей задачи поиска и ее теоретическое решение. Возможна ли практика?..

Мудреное словосочетание «проблематика поиска», которое можно толковать как «совокупность проблем, возникающих у людей по поводу поиска информации в интернете» имеет хорошую аллегорию: «Пойди туда – не знаю куда, принеси то – не знаю что».

В самом деле, если точно знаешь, что надо и где это лежит, дальнейшие проблемы уже не поисковые, а, скорее, условий получения и доставки. Именно эти идеи – определение «что надо» и «где лежит» - являются основой всех существующих сегодня в Сети навигационных сервисов. В индексирующих поисковых системах пользователь вводит запрос, выражая таким образом, свое «что надо», и получает ответы-указания, «где это лежит».

В тематических каталогах, наоборот, пользователь самостоятельно идет, ориентируясь и уточняя путь по иерархическому древу, туда, «где лежит», и выбирает себе «что надо». Современные навигационные ресурсы, как правило, предлагают на выбор возможность и того, и другого типа поиска. В отличие от сказок, где разнообразная нечисть мешает герою добраться до заветной цели, в Сети человеку ищущему все стараются помочь. Каталоги становятся все более большими, поисковые системы периодически объявляют, что они теперь знают еще больше и ищут еще лучше. А все владельцы сайтов, чьи страницы собственно и ищут пользователи, прилагают максимальные усилия, чтобы быть найденными легко и быстро. Так существуют ли вообще какие-то проблемы поиска, если все так просто и понятно?

Увы, да, проблемы есть. По разным данным, всего лишь 10-15% пользователей утверждают, что они всегда находят, что им необходимо. Навигационными ресурсами пользуются все, и, если верить вышеприведенной цифре, 90% участников многомиллионной интернет-аудитории более или менее регулярно не получают требуемой информации. Обратный процесс: сайты не получают посетителей, компании – клиентов, и т.п., в итоге те, кто материально заинтересован, чтобы их слово доходило до пользователей, несут убытки и очень серьезные.

Первая проблема поиска прекрасно иллюстрируется пословицей «трудно искать черную кошку в темной комнате, особенно когда ее там нет». Расхожее выражение, «в интернете все есть», очень далеко от истины. В сегодняшней Сети невозможно найти профессионально подготовленную полную систематизированную информацию практически из любой области науки, культуры. Не оцифрованы 90% текстов, собранных в библиотеках мира. Нет данных большинства статистических архивов.

Не переведены в Сеть киноархивы, фотоархивы, архивы и коллекции музыкальных записей. И так далее. Не стоит этому удивляться – интернет, как новый универсальный носитель информации существует лишь второй десяток лет, и до массового, целенаправленного переноса своих знаний в Сеть люди просто еще не добрались. Удивление вызывают как раз заявления, что заполнение сети информацией уже завершено. По большому счету оно еще не начиналось.

Вторая проблема поиска – невозможно точно определить, где «все» должно «лежать», с ней прежде всего сталкиваются составители глобальных тематических каталогов. Приведение в систему какой-либо области знаний - сложная задача, приведение же в систему всех знаний, известных человеку – задача, вряд ли имеющая конечное решение. Стоит упомянуть, что для классификации чего бы то ни было необходим человек, прекрасно разбирающийся в предмете, поэтому для составления и ведения глобального каталога понадобится команда энциклопедистов-систематиков.

Целью создания древа знаний в интернет-каталоге является не столько тщательность классификации, сколько удобство пользователей. Большинство же пользователей попросту не любят «ломать голову», разбираясь в оглавлениях. Поэтому ответ, например, на вопрос «где раки зимуют» предпочтут искать в индексирующих поисковых системах вместо попытки пройти «правильный» иерархический путь: Наука – Естественные науки – Биология – Зоология – Зоология беспозвоночных – Тип Членистоногие – Подтип Жабродышащие – Класс Ракообразные – Подкласс Высшие раки – Отряд Десятиногие - … - Речной рак. Тематическими каталогами удобно пользоваться специалистам. Биологу нужен биологический каталог, врачу – медицинский, химику – химический, математику – математический. Но стоит шагнуть в область знания, в которой пользователь каталога не разбирается, как незнакомая терминология становится серьезным препятствием быстрому поиску. Эти две причины, скорее всего, и определяют, почему большинство пользователей предпочитают индексирующие поисковые системы каталогам.

Идея индексирующих поисковых систем состоит в том, что пользователи примерно или точно знают, какие слова должны быть в искомом документе. Так сказать, хороший вопрос содержит половину ответа. Зная цитату, легко найти полный текст документа. Но третьей проблемой интернет-поиска является феномен, что пользователи не хотят формулировать длинные запросы, т.е. попросту не говорят точно, что им надо.

«Цитатой» из какого документа является запрос, например, «работа»? Или «компьютер», или «новости»?.. Возможных документов сотни миллионов, и в каком порядке выдавать ссылки на них – вопрос, ну, о-очень интересный! Почти половина поисковых запросов состоит из одного-единственного слова, около 30% - из двух, 15% - из трех. Большинство же «нормальных» цитат содержит четыре и более слов, таких запросов очень мало. Из-за того, что более 80% посетителей ведут себя совершенно «не по правилам», поисковые системы постепенно отказались от примата идеи соответствия слов поискового запроса словам документа и постоянно разрабатывают сложные алгоритмы расчетов многих параметров, пытаясь качественно решить общую задачу поиска.

Звучит она просто: пользователь должен получить максимально точный и максимально полный ответ на любой заданный вопрос. Как это понять? Вернемся к старому примеру, какой ответ может считаться максимально точным и полным на поисковый запрос «работа»? Эксперт-человек не сможет ответить на него однозначно и попытается уточнить смысл, чего хочет спрашивающий, например:

- найти (сменить) работу,
- получить сведения о рынке труда,
- ознакомиться с трудовым законодательством,
- устроиться на работу за границей,
- узнать адреса агентств по трудоустройству,
- получить новую профессию,
- сравнить свою зарплату со средней по избранной профессии,
- пообщаться с людьми, у которых есть проблемы с трудоустройством.

Совершенно очевидно, что выбор любого из возможных ответов повлечет, как минимум, еще одно уточнение:

- найти (сменить) работу – КЕМ ВЫ ХОТИТЕ РАБОТАТЬ?
- получить сведения о рынке труда – ВЫБЕРИТЕ ИЗ ПРЕДЛАГАЕМЫХ ОБЗОРОВ;
- ознакомиться с трудовым законодательством – КзоТ, КОММЕНТАРИИ, СТАНДАРТНЫЕ КОНТРАКТЫ…
- устроиться на работу за границей – В КАКОЙ СТРАНЕ, С КАКИМ УРОВНЕМ ЗАРПЛАТЫ, ПО КАКОЙ СПЕЦИАЛЬНОСТИ?..
- узнать адреса агентств по трудоустройству – В КАКОМ ГОРОДЕ?

- получить новую профессию – КАКУЮ?
- пообщаться с людьми, у которых есть проблемы с трудоустройством – ВЫБЕРИТЕ ИЗ ПРЕДЛАГАЕМЫХ КОНФЕРЕНЦИЙ И ЧАТОВ
- сравнить свою зарплату со средней по избранной профессии – КЕМ ВЫ РАБОТАЕТЕ?
И так далее. Таким образом, решением общей задачи поиска является предоставление пользователю выбора из полного спектра возможных ОТЛИЧНЫХ ДРУГ ОТ ДРУГА смыслов понимания запроса. Это, так сказать, «качественная» часть решения задачи.

«Количественной» является проблема выстраивания по старшинству различных смысловых предложений. Безусловно, чем выше ссылка, тем больше людей обратит на нее внимание. И чем выше ссылка, которую ищет пользователь. И тем лучшее впечатление производит на него поисковый сервис. Предпочтения пользователей статистически устойчивы, поэтому, понаблюдав немного за их поведением, можно узнать, что, в среднем, из ста человек задавших вопрос «работа», 60% выберут смысловой ответ «вы хотите найти (сменить) работу – выберите, кем вы хотите работать». 20% - предпочтут поиск работы за границей, 10% первым делом станут сравнивать свою зарплату со средней, и т.д.

Темы и цифры условные, потому что сегодня таких семантически-статистических исследований никто не проводил. В общем виде решение общей задачи поиска выглядит так: максимально полным и точным ответом на любой поисковый запрос является предложение выбора из отличных друг от друга смысловых вариантов понимания запроса в том виде, как он сформулирован, где ранжирование вариантов осуществляется в соответствии с их востребуемостью (частотой выбора того или иного варианта) авторами запроса.

Несмотря на простоту теоретического решения, поискового сервиса, работающего в соответствии с предложенной схемой, сегодня нет. Создать подобный ресурс как интернет-каталог невозможно, потому что существуют десятки миллионов различных поисковых запросов, и большинство из них может быть понято в нескольких смыслах.

Сделать качественный «расклад» по любому из возможных запросов довольно легко, но никакая команда энциклопедистов физически не справится с тем количеством запросов, которые реально задают пользователи. Попытки решить задачу алгоритмически и переложить проблему на компьютеры упираются в нерешенный вопрос, которому уже сотни лет – что же такое мысль, и что такое смысл с алгоритмической точки зрения. Процедура решения задачи крайне проста:

- определить спектр смысловых вариантов понимания запроса;
- найти в Сети страницы, соответствующие каждому из возможных вариантов;
- установить связи (ссылки).
Очевидно, что придется также определять смысл каждой из найденных страниц и решать, соответствуют ли эти страницы тому или иному варианту запроса. Большинство людей без особых затруднений способны решать такие задачи. Но компьютеры…
Еще в 1981 году Япония на государственном уровне ассигновала 250 миллионов долларов на научные разработки в области искусственного интеллекта. И это не единственная страна, и не самые большие деньги, потраченные на попытки создания «мыслящих машин». До сих пор мыслящий поисковый робот не создан. Рассказ о поисковых машинах, удачах и отступлениях их разработчиков очень увлекателен. Но это уже другая история, и в наше время она только начинается.

	Библиотека Интернет Индустрии I2R.ru	Малобюджетные сайты... Продвижение веб-сайта... Контент и авторское право...
Забобрить! Блог		Поиск:	Рассылки для занятых...»

Библиотека Интернет Индустрии I2R.ru

Малобюджетные сайты...

Продвижение веб-сайта...

Контент и авторское право...

Проблематика поиска