От информационного пространства к пространству знаний. Онтологии в Интернет.. Библиотека I2R. Магазин можно очень легко превратить в свалку, достаточно перемешать товары. Но обратный процесс - восстановление структуры - занятие сложное. Сеть зародилась и создается стихийно. И, полюбовавшись на дело рук своих, мировое научное сообщество серьезно задумалось о том, как преобразовать современную информационную свалку в четко структурированное и удобное для работы пространство знаний. Сугубо научная статья Наталии Майкевич на данную тему.

Введение

Всемирная паутина Интернет стремительно "расползается" и "вплетается" буквально во все сферы жизни. Web становится все более мощным и важным источником информации. Средствам обработки данных в сети все труднее и труднее справляться с лавиной информации, уже существующей и добавляемой в сеть ежедневно. Кроме того, данные в Интернет организованы крайне стихийно и не систематично. Кроме серверов, поддерживаемых компаниями, фирмами, университетами и другими официальными организациями, на которых, в основном, представлена тематическая информация, более или менее структурированная, Web "населяют" домашние страницы, соединяющие в себе все что угодно. Так, на одном и том же сайте можно узнать о результатах наблюдений за спутниками Юпитера и о рецепте пиццы. Такая дезорганизованность крайне затрудняет и запутывает процесс поиска нужной информации.

Информационное пространство Web "скроено" и "сшито" именно так, поэтому ничего не остается, как научиться "носить" его как можно эффектней. Для выхода на новый уровень в использовании Интернет, в первую очередь, необходим переход к семантически значимому представлению информации в сети. Работы, представленные на международных конференциях за последние два года, показывают, что мировое сообщество не только уже осознало необходимость, но и активно включилось в процесс реконструирования Web-пространства в пространство знаний. Анализ как реально действующих в Интернет систем, так и исследовательских прототипов, ориентированных на представление информации в виде знаний, позволяет утверждать, что лидирующим направлением для реализации приложений в этой области являются агентные технологии и мультиагентные системы.

В данной работе представлен обзор современных тенденций в этой области и приложений, использующих представление знаний в сети и доступ к ним. В отдельный класс выделяются исследования, использующие онтологии для представления знаний в Интернет. В заключении обсуждаются положительные результаты и основные проблемы в этой области.

Три способа превращения данных в знания в Интернет

Машины поиска и извлечения информации, такие как "Yahoo!", "Lycos", "Infoseek", используют механизм поиска по ключевым словам и не учитывают контекст, в котором существует информация. Вот почему результатом работы таких систем могут быть сотни тысяч ссылок. Современные версии поисковых систем ("Metacrawler", "WebSeek" и.т.п.) адресуют запрос пользователя сразу к множеству машин поиска, и составляют индексные мета-каталоги и базы данных. Но так как они остаются в рамках поиска, основанного на ключевых словах, то полученные индексы связывают информацию с терминами, учитывая только актуальный для данного запроса лексический или синтаксический контекст [Luke, et. all, 1996]. Аналогичные претензии можно адресовать и к тематическим каталогам, составленным вручную. Кроме того, что для их создания и сопровождения необходимо слишком много времени, существует диссонанс между критериями классификации понятий автора и пользователей [Luke.,et. all, 1996].

Другой подход к решению проблемы интеллектуализации Интернет заключается в дополнении специальными семантическими тагами стандартного HTML для того, чтобы "внести знания" прямо в страницы. Такие модифицированные HTML-документы несут информацию о взаимосвязях понятий и их семантических атрибутах в HTML-подобном формате, то есть не требуют внутреннего языка представления знаний.

Идея создания расширенного HTML нашла воплощение в таком стандарте, как разработанный в W3С (интернациональный всемирный Web консорциум) язык XML (Extensible Markup Language). XML – язык для разметки синтаксической структуры документов, позволяющий благодаря спецификации синтаксиса, использовать такие документы множеству агентов, для которых данный формат является общим. Для того, чтобы аннотировать документы с помощью XML, разработан формат описания ресурсов RDF (Resource Description Framework). Мета-информация, определяемая форматом RDF, размещается как дополнительная страница или блок внутри каждой web-страницы (элементы web страницы не могут быть аннотированы прямо в тексте исходного документа, а должны быть повторены с дополнительной мета-информацией). Такой способ влечет за собой много трудностей из-за дублирования информации.

В работах [Dobson S.A., Burrill V.A., 1995] и [Loke S.W, Davison A., Sterling L., 1996] также предлагается расширить HTML с целью получения семантических индексов к информации, организованной в виде так называемых Lightweight Deductive Databases, где связи между отдельными страницами определяются гипертекстовыми ссылками с атрибутами. Дедуктивные базы данных являются расширением реляционных за счет применения правил логического программирования для более сложного представления данных [K. Ramamohanarao, J. Harland, 1994].

Sandewall [Sandwall, 1996] предлагает создать Всемирную базу данных (WorldWide Data Base), состоящую из файлов, которые содержат полученные из Интернет небольшие фрагменты документов с описанием содержащихся в них понятий в виде объектов. Объекты представляются на специальном языке и могут включать ссылки на другие объекты, HTML-документы в Интернет или файлы из самой базы данных.

В последнее время серьезное развитие получила другая парадигма, с точки зрения которой Web рассматривается как потенциальная база знаний. Для работы со знаниями в сети нужны специальные методы представления и обработки знаний, интерпретации запросов и т.д. Задача здесь прежде всего в том, чтобы адаптировать методы и средства, разработанные в ИИ для систем, основанных на знаниях, в новую проблемную область. В рамках такого подхода сейчас внимание различных исследователей привлекают онтологии [Guarino, Poli, 1995] как средство построения распределенных и неоднородных систем баз знаний в Интернет. Адекватным средством реализации таких систем являются агентные технологии и мультиагентные системы. По определению [Gruber T. R, 1991] онтология – это спецификация концептуализации, которая состоит из словаря и теории. Онтологии включают абстрактное описание как очень общих, так и специфичных для конкретной предметной области терминов. Вопрос о корректном способе анализа знаний с целью определения терминов остается пока открытым и его обсуждению посвящено множество работ [Chandrasekaran B.,. Josephson J. R,. Benjamins V. R, 1998]. Одной из сильных сторон онтологий являются их потенциальные свойства для решения таких важных задач как разделение знаний и их повторное использование. Это заключение основывается на предположении о том, что если общая схема (представления и использования знаний), – то есть онтология, – явно определена для работающих с ней агентов как общий ресурс, то этот ресурс возможно разделять между агентами и многократно использовать [Fridman Noy, Hafner, 1997].

Онтологии и Web

Сегодня перечень проектов, которые в той или иной степени связаны с онтологиями на Web, уходит за горизонт, поэтому здесь остановимся только на самых интересных из них. Проект CYC® создания мульти-контекстной базы знаний и машины вывода, разрабатываемой Cycorp. Основная цель этого гигантского проекта раз и навсегда построить базу знаний всех общих понятий, включающую семантическую структуру терминов, связей между ними, правил, которая будет доступна разнообразным программным средствам [Lenat, 1995].

В рамках проекта (KA)2 (Knowledge Acquisition Initiative) по организации интеллектуального доступа к документам онтология является основой для аннотации WWW – документов. (KA)2 – это открытая инициатива, в рамках которой участники включаются в процесс создания распределенной онтологии и модели извлечения знаний (онтологии предметной области). Одной из целей (KA)2 является трансформация из представления WWW (как базы знаний) в систему, основанную на знаниях [Benjamins, Fensel D., 1998].

Авторы работы [Luke et al., 1997] в проекте SHOE предлагают аннотировать информацию, содержащуюся в HTML-документах, также используя онтологии. В SHOE "владельцы" информации могут сами аннотировать свои документы и расширять конкретную онтологию новыми понятиями. В этой системе центральный администратор онтологий не определен. Как следствие, давая запрос, пользователь может не знать все термины, которые используются для аннотации HTML-документов. Поэтому ответ на запрос может не содержать важную для пользователя информацию.

В проекте Ontobroker [Fensel V. D., et. all, 1998] предлагается организация онтологии с автоматической аннотацией WWW-документов семантической информацией. Основная идея данного проекта – это использование метафоры группы по интересам (newsgroup), чтобы определить группу людей, у которых общий взгляд на понятия и их место в общей онтологии. В отличие от SHOE, в Ontobroker имеется администратор онтологий, и клиенты могут узнать все термины онтологий. В SHOE используется дескриптивная логика как базисный формализм для вывода, а Ontobroker использует логику, основанную на фреймах и поддерживает довольно сложный механизм вывода ответа на запрос. Созданный в рамках этого проекта специальный поисковый механизм Ontocrawler поддерживает полную коллекцию всех аннотированных с помощью Ontobroker HTML-страниц.

Как отмечалось выше, в последние несколько лет резко усилился интерес к разработке интеллектуальных поисковых механизмов. Альянс свойств онтологий и систем, основанных на знаниях, в сочетании с текущей задачей интеллектуализации информационного поиска определили привлекательность идеи их использования в этом направлении. Таким образом, в настоящее время методы искусственного интеллекта определяющим образом влияют на развитие средств автоматического извлечения и анализа информации в сети Интернет и рассматриваются как катализатор для возникновения следующего этапа развития поисковых средств.

Заключение

Попытки структурировать Web предпринимаются постоянно. Онтологии это еще одна попытка решить проблему информационного переполнения в сети. Основные задачи, которые могут успешно решаться (и решаются) на базе онтологий, включают предоставление знаний для вывода информации, которая релевантна запросу пользователя; фильтрация и классификация информации; индексирование собранной информации; организация общей терминологии, которой могут пользоваться для коммуникации программные агенты и пользователи. До сих пор возможности логического вывода в Интернет практически не применялись. С "приходом" баз знаний и систем, основанных на знаниях, в Web появляются новые перспективы в освоении сетевого пространства.

Конечно, существует ряд спорных моментов и нерешенных проблем. Далее обсуждаются некоторые из них.

Идея приписывания каждому HTML-документу либо заголовка с описанием ключевых слов и семантическими связями между ними [Luke et. all, 1996], либо другой классифицирующей информации проста и понятна, но пока практически не реализуема. Нельзя ожидать, что онтологии будут использоваться каждым пользователем, но даже если это станет возможным, то крайне затруднительным окажется процесс коммуникации пользователей с целью договориться об используемых терминах. Безусловно, возможна автоматическая модификация документов, но, по крайней мере, необходимы единые стандарты формата мета-тагов и четко определенные протоколы взаимодействия разных составителей онтологий. Использование идеи групп по интересам также проблематично, так как другие пользователи, имея другую модель мира, не смогут "распознать" нужные им документы. Наконец, разработка онтологий занимает много времени.

Большие онтологии, такие как CYC, создаются на основе абстрактного и очень общего описания понятий предметной области и связей между ними. Реально для каждого пользователя возможен свой контекст для представления терминов в зависимости от ситуации и модели мира пользователя. Поэтому часто пользователю не нужна огромная онтология, содержащая описание "всего мира".

Использование нескольких онтологий для учета контекстного взгляда конкретного пользователя представлена в [Takeda H., Iino K., Nishida T, 1995]. Каждое понятие описывается (часто on-line) с нескольких точек зрения, каждая из которых представляет способ концептуализации. Но при данном решении возможна ситуация "сегментации знаний" в сети.

Направление развития данной парадигмы определяется решением указанных выше проблем, то есть какими быть онтологиям в Интернет: универсальными или ограниченными предметной областью(областями); уникальными в системе или состоящими из распределенного подмножества; доступными для редактирования всем пользователям или только администратору. Возможно интересные результаты даст поиск новых структурных решений внутренней организации онтологии, способов доступа к хранящейся в ней информации, новых методов вывода и представления ее для пользователя. Необходимо развивать методы взамодействия пользователя с онтологией (онтологиями).

Вовлечение систем, основанных на знаниях на Web, компонентом которых являются онтологии, позволяет рассматривать всемирную паутину как организованное и структурированное пространство знаний, что, возможно, приведет к использованию информации в сети на новом уровне.

Впервые опубликовано в конференции Исследовательского центра искусственного интеллекта, Институт программных систем Российской Академии Наук Переславль-Залесский, 152140, Россия.

	Библиотека Интернет Индустрии I2R.ru	Малобюджетные сайты... Продвижение веб-сайта... Контент и авторское право...
Забобрить! Блог		Поиск:	Рассылки для занятых...»

Библиотека Интернет Индустрии I2R.ru

Малобюджетные сайты...

Продвижение веб-сайта...

Контент и авторское право...

От информационного пространства к пространству знаний. Онтологии в Интернет.