На главную

Библиотека Интернет Индустрии I2R.ru

Rambler's Top100

Малобюджетные сайты...

Продвижение веб-сайта...

Контент и авторское право...

Забобрить эту страницу! Забобрить! Блог Библиотека Сайтостроительства на toodoo
  Поиск:   
Рассылки для занятых...»
I2R » Секреты поиска » Поисковые системы и каталоги

Искать и не сдаваться! Поиск в Интернете. Новый подход и перспективный метод

Ищите в себе самих себя, и вы найдёте всё

Прогресс в компьютерной технике и электронных средствах связи сделал возможной переработку огромных объёмов информации и представление её в Интернете. Доступ к информации упростился, но одновременно существенно обострились и стали наиболее злободневными вопросы поиска и целенаправленного отбора материалов, содержащих необходимую информацию. Резко возросла актуальность поиска путей и новых подходов для предотвращения реальной угрозы бесконтрольного разрастания информации и превращения Интернета в свалку данных. Или, другими словами, прилагается всё больше усилий, чтобы не допустить ситуацию, когда создать нечто из ничего легче, чем найти нечто среди всего.

Как происходит поиск сегодня?

Пользователь составляет поисковые фразы и через интерфейс (например, Internet Explorer) находит материалы, содержащие часть или все слова из поисковой фразы. Основные проблемы подобного поиска:

  • правильное конструирование поисковой фразы (выбор ключевых слов);
  • правильный выбор направления (тематики) поиска;
  • проведение поиска и нахождение материалов на востребованном пользователем уровне;
  • нахождение материалов в требуемом виде представления.

Каждый пользователь Интернета знаком с ситуацией: находишь не то, что ищешь, то есть указанные проблемы решаются в недостаточной степени. Поиск нередко требует существенных затрат времени. Поиск не всегда заканчивается удачей.

Недостатки современных поисковых систем в значительной степени объясняются следующим:

  • они принципиально ориентированы на пользователя вообще, поиск идёт по общему дереву;
  • обратная связь сводится к уточнению следующего шага на развилке;
  • не создаётся и не накапливается информация о личности пользователя.

Постановка задачи

Создание личного интеллектуального интерфейса для поиска

  • необходимых и
  • привычных для каждого пользователя информационных материалов.

Концепция

Утверждается, что для поиска информации в Интернете необходим некий дружественный нтерфейс для каждого пользователя, то есть необходим индивидуальный подход к каждому субъекту поиска, при котором учитываются особенности его мышления. Индивидуализация Интернета возможна при представлении особенностей мышления пользователя в какой-либо форме, накоплении информации о личности пользователя и использовании её особенностей при поиске и обратной связи.

В общем случае мы имеем матрицу, по вертикали которой расположены пользователи, а по горизонтали - материалы Интернета. Причём основной формой представления информации в Интернете являются тексты, и пользователь взаимодействует с Интернетом посредством текстов (например, поисковых фраз).

Задачи можно сформулировать следующим образом:

  • по текстам пользователя (поисковым фразам, накопленной информации о пользователе) выделить только необходимые и привычные ему тексты из всей горизонтальной строки текстов;
  • по характеристике текста Интернета найти из всего вертикального столбца группу пользователей, соответствующих в определенном смысле этому тексту (имеющих сходство, например, при целенаправленной продаже через Интернет).

В обоих случаях узловым вопросом является критерий поиска, то есть принцип сопоставления текстов пользователя и Интернета (нахождение корреляций). Очевидно, что этот критерий должен быть:

  • лингвистическим;
  • пригодным для компьютерной обработки данных;
  • достаточно простым, пригодным для обработки больших массивов информации.

Вопрос сводится к выделению формальных признаков текстов, отражающих их сущность. При выборе критерия необходимо принять во внимание следующее. Особенности мышления людей в существенной степени складываются при обучении. Обучение, в частности, есть процесс установления и закрепления ассоциативных связей (привычек, по Д. Юму). В лингвистическом смысле - это выработка привычек в использовании слов и предикативных определений, употребляемых в любой общественной деятельности. Предполагается, что сфера человеческого бытия (деятельности) в большинстве случаев определяет в существенной степени индивидуальность личности, а относительная частота употребления привычных словесных конструкций свидетельствует о принадлежности человека к той или иной сфере. Также предполагается, что каждому удобнее использовать информацию мировоззренчески близких людей, так как более вероятно, что она находится на востребованном уровне и в требуемом виде.

Существенно, что в процессе обучения и жизнедеятельности набор лингвистических привычек качественно меняется, причем в большей степени мы привыкаем к необходимым определениям, то есть устанавливается качественно важное для последующего соотношение: необходимое становится привычным!

Для поисковой системы важно вычленить привычные связи для наиболее часто употребляемых словесных конструкций, например для поисковых фраз. Так, поисковые системы Yahoo!, AltaVista и другие уже нащупали правильное решение: они дают возможность пользователям строить поисковые фразы, используя привычные предикативные определения. Например, вы ищете компьютер. Тут же вы получаете выбор: персональный, ноутбук, Unix, софт и т. д. Выбрав Unix, вы сможете решить, хотите ли вы работать на Unix, хотите ли купить Unix-софт или что-то другое. Это и есть поэтапное построение привычного предикативного определения. А возможно ли создание ряда наиболее привычных предикативных определений для поисковых фраз вообще, для всех возможных случаев? Да, возможно. Скоро все мы будем иметь возможность находить привычные поисковые предикативные определения, используя рубрики ведущих поисковых машин.

Но слабое место такого подхода в том, что поисковые предикативные определения не коррелируются с таковыми текстов, составленных как отдельными людьми, так и группами людей, использующими какие-то привычные для них предикативные определения. Недостаточно иметь только привычные поисковые предикативные определения, нужно найти авторов текстов, которым они привычны.

Цель поиска информации может быть сформулирована как получение текста(ов), содержащего(их) максимальное количество привычных для данного пользователя предикативных определений субъектов и объектов искомой информации.

Критерий успеха поиска - степень совпадения, количество лингвистической "схожести" (по определенным характеристикам) искомых текстов и текстов пользователя (информации о личности пользователя).

Основы методики

В созданном интеллектуальном интерфейсе исходным является накопление привычных предикативных определений текстов и каждого пользователя в неких профилях. Для этого интерфейс берёт каждое предложение каждого текста (как наименьший осмысленный компонент текста) и перебирает все возможные комбинации существительных, прилагательных и глаголов в предложении. Триады "существительные - прилагательные - глаголы" рассматриваются как контекст текста, определяющий взаимоотношение объектов внешнего мира. Для поиска информации достаточно выделить только контекст текстов, отражающих мировоззрение автора(ов) текста. (Мы опускаем здесь некоторые тонкости, касающиеся роли местоимений при составлении триад, не имеющие принципиального значения.) С целью выявления наиболее привычных предикативных определений производится подсчёт частоты повторений триад для всего текста. Менее привычные и случайные предикативные определения удаляются из профиля, оставшиеся сортируются в порядке убывания частоты повторения (привычности).

Экспериментально установлено, что только 5-7% от общего числа лингвистически привычных триад повторяются более двух раз в текстах любой величины. Словарный запас каждого человека хотя и велик, но конечен. Известно, что даже профессиональные филологи знают не более 25-30 тысяч слов, а активно используют и того меньше. Например, если общее количество триад в текстах Ленина, Рассела и Черчилля (величиной в 50 тысяч слов каждый) составляло 0,7-1,2 миллиона, то только 9-10 тысяч триад повторялись более двух раз. И это в текстах Рассела и Черчилля, писавших на родном языке и получивших Нобелевские премии по литературе! На экспериментальном этапе отработки методики было оставлено по 5 тысяч триад для каждого профиля.

Профиль, содержащий наиболее привычные предикативные определения текста, называется метрикой данного текста. Для пользователей интерфейса метрика создаётся на основе наиболее часто повторяемых предикативных определений любого написанного или предпочитаемого пользователем текста. Принципиально важно, что такая метрика позволяет эффективно осуществлять обратную связь в Интернете, где обратная связь есть обратное воздействие субъекта процесса поиска информации на источник информации.

Поиск нужного текста по его метрике производится на основе сопоставления метрик пользователя и искомых текстов. Интерфейс проводит сравнение набора привычных пользователю предикативных определений из его метрики с набором привычных предикативных определений метрик текстов определенного раздела (Стандартной карты - см. далее). Результат поиска содержит сортированный в порядке убывания список наиболее схожих по метрике текстов. При этом текст рассматривается не как бессмысленное собрание слов, а как осмысленная композиция предикативных определений. С учётом изложенного уточняется формулировка критерия успеха поиска.

Критерий успеха поиска - степень совпадения метрик пользователя и текста.

Следует подчеркнуть, что профили содержат только наиболее привычные предикативные определения контекста текстов, но не передают их содержание непосредственно. Информация, содержащаяся в тексте, не восстанавливается по его профилю.

Субъективность, или, иначе, неадекватность, в оценке окружающего мира, отражается в структуре профилей как использование специфичных предикативных определений. Степень субъективности может быть определена через количество и/или качество специфичных предикативных определений. Вычленение триад с определённой структурой предикативных определений позволяет охарактеризовать как мотивацию, так и психологию владельца профиля. "Создание - всегда подсознательный портрет создателя" (А. Вознесенский).

Примеры

Триады с прилагательным "in" (внутренний) имеют наибольшую частоту повторения в профилях практически любого достаточно большого текста. Профили известных людей, находящиеся на сайте unisearch.net, наглядно иллюстрируют это утверждение. Поскольку известно, что "кто/что с нами, тот/то не против нас", то каждый человек субъективно определяет необходимое ему устройство мира, то есть мироустройство, которое он хотел бы навязать окружающему миру для того, чтобы он был субъективно прекрасен. Подсознательное употребление прилагательного "in" в определённых предложениях и рядом с определёнными словами знаменует особую актуальность тематики этого предложения для автора.

В профиле одиозного Гитлера, созданном на основе переведённых на английский его речей, наиболее часто встречаются триады "but - be - in", "german - be - in", "state - be - in", означающие, что Германия должна соответствовать мировоззренческим представлениям Гитлера о ней несмотря ни на что (but!), где триада "one - be - in" означает, что Бог (можно показать, что слово "one" бессознательно используется в любом профиле для обозначения Бога) должен быть с Гитлером; где триады "must - be - in", "have - have - in", "german - have - in" объясняют патологию выбора Гитлером жесткого инструментария для приведения Германии в соответствие с его внутренними установками; а триада "war - be - in" объясняет психологию его внутреннего мира (он постоянно живет на военном положении).

Анализируя профиль Троцкого, мы видим, как он думает, что всё и вся должны быть с ним ("all - be - in") несмотря ни на что ("but - be - in") и что всё и вся - это Советы и армия ("soviet - be - in", "army - be - in"). При этом он, как и Гитлер, живет в состоянии войны ("war - be - in"), полагая, что самое главное - военный порядок ("military - order - military"), основанный на власти класса ("order - be - in", "power - be - in", "class - be - in"). При этом он полагает, что не только русские, но и весь мир должен быть приведён в соответствие с его внутренними установками: "russian - be - in", "world - be - in". В этом ему обязаны помочь его верные товарищи ("comrade - be - in").

Рассматривая профиль Марка Твена (на основании "Приключений Тома Сойера"), мы видим, что всё должно отвечать его представлениям о мироздании: "but - be - in", "all - be - in". По религии ("one - be - in") следует, что заблудших надо привести к истине: "come - be - in", "out - be - in". И тогда: "all - get - in".

При сравнении психотипов Бертрана Рассела и Марка Твена можно заметить, что оба видят весь мир голубым, что символизирует, в соответствии с классическими определениями психологии, одиночество: "blue - blue - blue". В остальном профиль Рассела - это профиль типичного позитивиста и философа: он полагает (по книге "Основы философии"), что главное - это факт ("fact - be - in") и что смысл всего им внутренне понят и познан ("sense - be - in", "knowledge - be - in").

Верность сказанного может вызвать сомнение, но это легко проверяемые факты. Профили можно создать и увидеть. Посетите сайт unisearch.net.

Развитие методики

Очевидно, что метрики текстов, созданных людьми, объединёнными по принципу общей деятельности, схожи по частоте употребления привычных предикативных определений. Аналогично, и пользователи могут быть сгруппированы по общности интересов, особенностей мировоззрения и т. п. Поэтому интеллектуальный интерфейс проводит группирование как пользователей, так и текстов любой текстуальной базы данных по метрикам.

Объединение отфильтрованных по принципу похожести метрик текстов называется Стандартной картой данной текстуальной базы данных.

Объединение отфильтрованных по принципу похожести метрик пользователей называется Семьёй. Существование Семей позволяет всем её членам обмениваться, например, информацией о предпочтениях при поиске информации, в покупках в е- сommerce-компаниях и т. д. Для регистрации этих предпочтений создаётся отдельный профиль для каждой Семьи. При изменении метрики пользователя профиль немедленно перемещается в другую группу.

Для удобства поиска производится классификация текстов по разделам (от общего к частному). Допустим, что в принятой классификации (например, библиотечной) оценивается вероятность попадания текстов в нужный раздел в соответствии с установленной иерархией. При достаточно большом количестве текстов получим искомую вероятность попадания с достаточно большой доверительной вероятностью. Превышение вероятности попадания текста в нужный раздел над случайной вероятностью является доказательством наличия в метрике признака сущности текста (естественно, и доказательством работоспособности методики, и обоснованием выбранного направления). Степень превышения случайной вероятности является критерием качества методики. Этот простой и объективный критерий применим при сравнении различных методик, оценке и выборе вариантов методики, оценке эффективности последующих модернизаций методики.

Как дополнительная опция, патентом, принадлежащим Mightiest Logicon Unisearch.Inc., предусмотрено создание расширенной метрики для поискового текста (расширенной поисковой фразы). Метрика поискового текста искусственно увеличивается за счёт прибавления всех возможных синонимов для каждого слова каждой триады и последующего составления всех возможных триад. Сделано это для того, чтобы можно было находить нужные разделы классификации, даже если пользователь не сумел чётко сформулировать цель поиска.

Мечты о нахождении неизвестно чего неизвестно где в ближайшее время могут стать реальностью. Найти подобную информацию, зная ответы на вопросы: "Какие тексты необходимы пользователю?" и "Как их найти?" - достаточно просто. Существенный массив информации уже имеется в электронном виде и в различной форме и форматах доступен через Интернет. Если эта информация уже стандартизирована и пользователь уже создал свой профиль, содержащий привычные ему предикативные определения, нет ничего проще, чем найти то, о чём пользователь и спросить не может. Предлагаемая методика сделает это чудо.

Как и всякая методика, предлагаемая имеет ошибки метода (поиск по лингвистическим критериям с соответствующими ограничениями и при определенной достоверности профиля пользователя, изменение языка во времени) и инструментальные (из-за лингвистических особенностей языка перевода и вносимых переводчиком). Методика вероятностная и принципиально не может быть иной. Но уже сделанное доказывает работоспособность запатентованного метода. Работы по развитию и усовершенствованию методики продолжаются.

В настоящее время заканчивается разработка Стандартных карт базы данных Патентных агентств США и Европы. В течение нескольких месяцев планируется закончить работы по картографированию Рунета и установить коммерческую версию интеллектуального интерфейса на русском языке. После этого будет произведено картографирование Интернета на всех языках европейской группы.

Русскоязычным пользователям будет предоставлена возможность бесплатно и абсолютно анонимно создавать свои профили для поиска как в Рунете, так и в различных бесплатных базах данных. Для этого пользователь может просто загрузить в свой компьютер программу, создающую и хранящую его профиль в его же компьютере, с сайта компании Mightiest Logicon Unisearch.net. Платным в этой системе будет доступ к службе знакомств (для создания профиля ищущего может быть использован любой текст, духовно ей/ему близкий); к системе нахождения любых статей, книг и документов на всех языках мира; к некоторым базам данных и т. п. Тем же, кто захочет воспользоваться уникальной возможностью целенаправленных адресных продаж группам пользователей через Интернет, предлагаемая система предоставит как результаты выборочных опросов членов этих групп, так и место для рекламы. Люди, имеющие похожие профили, похожи и в своих вкусах, и в своём имущественном положении. Они же, по определению, вовлечены в одну и ту же деятельность. Некоторая погрешность в оценке групп не препятствует достижению эффективных результатов. Воспользовавшиеся очевидными преимуществами обратной связи в Интернете всегда будут иметь наисвежайшие данные о потребителях их продукции.

Таким образом, предлагаемая методика:

  • уточняет поиск, делает его целенаправленным на качественно новой основе;
  • уменьшает время поиска (или увеличивает вероятность нахождения за то же время);
  • расширяет возможности Интернета;
  • не требует от пользователя дополнительных знаний.
Статистика для различных знаменитостей - количество триад в тексте из 50 тысяч слов:
  1. 854885 триад - Данте (50 117 слов);
  2. 840160 триад - Эдгар По (52 095 слов);
  3. 467310 триад - Федор Достоевский (50 322 слов);
  4. 850009 триад - Гомер (54 071 слова из "Одиссеи" и "Илиады");
  5. 512764 триады - Карл Маркс (50 607 слов);
  6. 466018 триад - Мао Цзэ-дун (53 837 слов);
  7. 778752 триады - Марк Твен (50 036 слов);
  8. 545714 триад - Зигмунд Фрейд (51 031 слов);
  9. 768323 триады - Уильям Шекспир (51 292 слова);
  10. 520469 триад - Уинстон Черчилль (52 126 слов).

Путь от "Интер-НЕТ" к "Интер-ДА" открыт!

Илья Геллер,ilyageller@hotmail.com
Впервые опубликовано: /www.iworld.ru/

Рассылки Subscribe.ru:

Библиотека сайтостроительства - новости, статьи, обзоры
Дискуссионный лист для web-разработчиков
Подписка на MailList.Ru
Автор: NunDesign
Другие разделы
Yandex
Поисковые системы и каталоги
Новое в разделе
Yahoo
Google
I2R-Журналы
I2R Business
I2R Web Creation
I2R Computer
рассылки библиотеки +
И2Р Программы
Всё о Windows
Программирование
Софт
Мир Linux
Галерея Попова
Каталог I2R
Партнеры
Amicus Studio
NunDesign
Горящие путевки, идеи путешествийMegaTIS.Ru

2000-2008 г.   
Все авторские права соблюдены.
Rambler's Top100